NVIDIA有竞争对手了，不是GPU的IPU|gpu|nvidia|内存|处理器

2020年7月30日，MLPerf组织发布了MLPerf Training v0.7基准测试（基准）的第三版。基于5月发布的最新A100 Tensor Core GPU的NVIDIA DGX SuperPOD系统的性能打破了8项记录，这为许多想要构建比NVIDIA更好的GPU的AI芯片公司增加了难度。

相比之下，Graphcore于7月15日发布的第二代IPU GC200值得NVIDIA保持警惕。原因当然不只是因为第二代IPU（也是台积电的7纳米工艺）的晶体管密度比NVIDIA A100 GPU高出10％。

代替，Graphcore的第二代IPU在多个主流型号中均胜过A100 GPU，两者将在超大型数据中心中展开正面竞争。

将来，IPU在某些新兴的AI应用程序中可能会显示出更大的优势。

GPU的多维比较，IPU性能提高了100倍

目前，AI的应用主要集中在计算机视觉（CV）上。就CV而言，基于Google新发布的EfficientNet模型的基准（基准），推理性能IPU吞吐量可以达到GPU的15倍，训练性能也可以提高7倍。

基于ResNet的改进模型ResNeXt-101，IPU可以将吞吐量提高7倍，同时将延迟减少约24倍。在ResNeXt-50模型的训练中，IPU的吞吐量比GPU高约30％。

另外，在当前最流行的NLP模型BERT-Base中，具有相同延迟的IPU可以在推理过程中获得两倍的吞吐量，将训练时间减少25％至36.3小时，并将功耗减少20％。

在概率模型中，IPU也具有优势。在MCMC训练模型中，IPU的性能是GPU的15倍，训练时间缩短了15倍。在VAE的精度训练模型中，它可以将性能提高4.8倍，并将训练时间缩短4.8倍。

此外，销售预测和推荐模型目前正受到更多关注。与用于销售数据分析的MLP模型训练中的IPU相比，GPU的性能提高了6倍，与推荐的Dense自动编码器模型的训练性能相比，IPU的性能提高了2.5倍。

如果IPU在数据包卷积内核方面更好，则组大小越小，IPU的性能优势就越明显。总体而言，吞吐量增加了4到100倍。

IPU的三大技术突破

从当前AI应用中IPU和GPU的多维比较中，我们可以看到IPU的优势，这与Graphcore的计算方法的突破以及数据和通信的三项关键技术密切相关。

Graphcore新发布的第二代IPU Colossus Mk2 GC200计算核心已经从1,216个独立的IPU-Tiles单元增加到1,472个，并行执行的总数为8,832个线程。处理器内存已从上一代的300MB增加到900MB。每个IPU的内存带宽为47.5TB / s。

它还包含IPU-Exchange和PCI Gen4与主机交互的接口。 IPU-Link的芯片间互连速度为320GB / s。

计算方式

选择三种典型的应用场景，从计算级别比较第二代和第一代IPU。 BERT-Large的训练性能提高了9.3倍，三层BERT推理的性能提高了8.5倍，而EfficientNet-B3则提高了7.4倍。与第一代IPU相比，第二代IPU的峰值计算能力提高了两倍。在典型的CV和NLP模型中，第二代IPU的性能比第一代IPU平均提高了8倍。。

性能提升非常重要，因为处理器的内部存储已从300MB增加到900MB。Graphcore中国技术应用总经理罗旭告诉雷锋。 “我们对计算能力核心的微体系结构进行了一些调整。每个IPU-Tiles都将具有更强大的性能，整体峰值性能将翻倍。增加。在有效的计算能力方面，处理器的内部存储已经从300M增加到900M，可以带来更大的比特性能改善。”

MK2 IPU添加的处理器内存储器主要用于一些存储空间，以激活和加权我们的模型。由于存储在处理器中的程序所占用的空间与第一代IPU基本上相同，因此可用于增加重量和激活算法模型的有效存储容量超过6倍。

但，300M处理器本身的内部存储非常具有挑战性。升级到900M时，您面临哪些挑战？罗旭指出：“要使MK2支持8000个超线程并行工作，并确保其各个方面的线性和性能都非常好，这是一项非常复杂的技术。我们使用BSP来设置软件和硬件+编译。确保可以改善性能的机制。软件级别的主要挑战是支持新模型，因此我们的软件Poplar SDK必须继续进行迭代。

如果您比较基于8个最新A100 GPU的NVIDIA DGX-A100，则由8个Graphcore M2000组成的系统的FP32计算能力是DGX-A100的12倍，AI计算方法是3倍，AI计算存储量是10倍。在价格方面，IPU-M2000的价格为259,600美元，而DGX-A100的价格为199,000美元。 Graphcore具有某些具有成本效益的优势。

从应用的角度来看，在EfficientNet-B4的图像分类训练中，8个IPU-M2000的性能（在1U盒中集成4个GC200 IPU）相当于16个DGX-A100，这可以体现价格优势。十次。

数据

在数据方面，Graphcore提出了IPU Exchange Memory的交换存储概念。与NVIDIA当前使用的HBM技术相比，每台IPU-M2000 IPU机器可通过IPU交换内存技术提供近100倍的带宽和约10倍的容量，这对于许多复杂的AI模型算法非常有帮助。

计算方法加上数据的突破可以使IPU在本机稀疏计算方法中展现出IPU性能优势的10到50倍。在数据和计算方法密集的情况下，GPU的性能很好，但是随着数据稀疏性的增强，当数据稀疏和动态稀疏时，IPU的优势越来越明显。

Graphcore中国公司高级副总裁兼总经理陆涛表示：“现在，随着一些世界领先的研究，例如NLP，每个人都开始探索稀疏NLP等算法模型。我们的技术对许多超大规模研究非常有帮助。 AI模型。”

通讯

对于数据中心中的当前大规模计算方法，通信也是一个非常关键的问题。为此，Graphcore专为AI水平扩展设计了IPU-Fabric。 IPU-Fabric可以实现2.8Tbps的超低延迟结构，并且可以支持多达64,000个IPU水平扩展。

陶璐说，IPU-Fabric由三种类型的网络组成。第一个是IPU-Link，第二个是IPU网关链接，第三个是IPU over Fabric。IPU-Link用于提供机架中IPU之间的通信接口。 IPU网关链接提供机架之间的网络以及机架之间的水平扩展。基于光纤的IPU可以将IPU群集和x86群集连接到一个非常灵活，低延迟和高性能的网络。

结合计算方法，数据和通信方面的突破，可以用于构建大规模且可扩展的IPU-POD系统。用于超级计算规模的IPU-POD形式为IPU-POD64，它是IPU-POD的基本组件。每个IPU-POD64机柜总共有64个IPU，它们可以提供16PFlops的计算能力和58GB的处理器内存储器，以总计提供7 TB的流存储。

因此，在IPU-POD中将AI计算方法与逻辑控制解耦非常重要，这样系统易于部署，网络时延很低，可以支持很大的算法模型，并且非常安全居民使用。

陶路说：“ IPU-Fabric支持多达64,000个IPU-POD集群，总共可以提供16个EFlops FP16计算能力。在日本发布的超级计算机具有0.5 EFlops的计算能力。我们总共可以建立64,000个IPU。 16 EFlops，太神奇了。”

Graphcore为什么值得NVIDIA注意吗？

“目前，超大规模IPU-POD技术的主要应用场景仍是大规模AI培训，包括自然语言处理和机器视觉应用。IPU-POD具有优势。”陆涛指出：“例如，训练模型时，GPU性能为1。也许一台机器上有8张卡，性能高于0.7。但是如果场景扩展到1000个GPU或数千个GPU ，性能可能会下降到0.7、0.6，更好或0.8，并且非常大IPU-POD对于帮助您解决大型集群的可伸缩性问题非常重要。

此外，从功耗的角度来看，不同的场景会有一些差异。通常，单个M2000的整个系统的功耗为1.1KW，相当于每个IPU处理器的性能/功率比为0.9TFlops / W。在数据中心高性能AI计算的同类产品中，能效比高于A100 GPU的0.7TFlops / W和华为Ascend 910的0.71TFlops / W。

换句话说，在大型数据中心，Graphcore将与NVIDIA正面竞争。Lei Feng.com认为，与竞争对手的GPU相比，NVIDIA不应该忽略Graphcore的IPU。特别是，Graphcore一直强调它是为AI诞生的，目标应用程序也是CPU和GPU都不擅长的AI应用程序。

这也可以从Graphcore的软件和生态建设中看出。 IPU作为通用处理器，可以同时支持训练和推理，并提供统一的软件平台。最新的POPLAR SDK1.2具有三个功能：首先，它将与更高级的机器学习框架集成。其次，进一步开放低级API，以便开发人员可以对网络性能进行特定调整。第三，增加框架支持，包括对PyTorch和Keras的支持，并优化卷积和稀疏库。

此外，支持全面开发框架的三个主流操作系统ubuntu，RedHat和CentOS降低了开发人员的难度。同时，通过进一步打开低级API，可以开源POPLAR PopLibs源代码。这些任务旨在使开发人员能够使用IPU进行创新，并在新的应用领域中建立IPU的竞争优势。

此外，Graphcore还为企业用户，大学和研究机构以及个人开发人员在不同时间段提供免费的IPU使用。在中国，Graphcore IPU开发人员云已部署在金山词霸云上。使用了三种IPU产品，其中一种是IPU-POD64，浪潮的IPU服务器（NF5568M5）和戴尔的IPU服务器（DSS8440）。

Leifeng.com了解到，Graphcore IPU开发人员云的当前应用主要是企业用户和大学，个人研究人员相对较少。

IPU开发人员云支持一些最先进和复杂的AI算法模型的训练和推理。例如，一些机器视觉应用程序模型（例如ResNeXt，EfficientNet等）主要由分组卷积表示。基于时间序列分析应用程序，自然语音应用程序，广告推荐，财务算法等中使用了大量模型（例如LSTM和GRU）。就概率模型，某些算法交易模型而言，深度自动编码器等排名和推荐类别基于MCMC的有很好的表现。

陶路说：“ Graphcore已经找到了自己的足迹。我们首先想到的是IPU如何帮助客户和合作伙伴解决使用CPU或GPU无法解决的问题。从全球范围来看，我们最快的应用程序仍然很大。在数据中心，他们在金融，医疗和卫生领域取得了长足的进步。”

还有一个非常关键的问题，影响到IPU的大规模商业使用。高达900M的片上存储的第二代IPU成品率的成本是多少？

卢涛说：“成本分为人员，工具，IP和磁带输出成本几个部分。因此，必须考虑两个部分。第一部分是芯片生产的BOM成本。这部分基本上是固定的。因此，好处第二部分非常重要，我们使用从第一代产品到第二代产品的分布式存储体系结构，它将很好地控制产品的输出，因此即使是900M处理器的内部存储也不会对成本产生特别大的影响。"