2020年7月30日,MLPerf组织发布了MLPerf Training v0.7基准测试(基准)的第三版。基于5月发布的最新A100 Tensor Core GPU的NVIDIA DGX SuperPOD系统的性能打破了8项记录,这为许多想要构建比NVIDIA更好的GPU的AI芯片公司增加了难度。

相比之下,Graphcore于7月15日发布的第二代IPU GC200值得NVIDIA保持警惕。原因当然不只是因为第二代IPU(也是台积电的7纳米工艺)的晶体管密度比NVIDIA A100 GPU高出10%。

代替,Graphcore的第二代IPU在多个主流型号中均胜过A100 GPU,两者将在超大型数据中心中展开正面竞争。

将来,IPU在某些新兴的AI应用程序中可能会显示出更大的优势。

打开网易新闻 查看精彩图片

GPU的多维比较,IPU性能提高了100倍

目前,AI的应用主要集中在计算机视觉(CV)上。就CV而言,基于Google新发布的EfficientNet模型的基准(基准),推理性能IPU吞吐量可以达到GPU的15倍,训练性能也可以提高7倍。

打开网易新闻 查看精彩图片

基于ResNet的改进模型ResNeXt-101,IPU可以将吞吐量提高7倍,同时将延迟减少约24倍。在ResNeXt-50模型的训练中,IPU的吞吐量比GPU高约30%。

另外,在当前最流行的NLP模型BERT-Base中,具有相同延迟的IPU可以在推理过程中获得两倍的吞吐量,将训练时间减少25%至36.3小时,并将功耗减少20%。

打开网易新闻 查看精彩图片

在概率模型中,IPU也具有优势。在MCMC训练模型中,IPU的性能是GPU的15倍,训练时间缩短了15倍。在VAE的精度训练模型中,它可以将性能提高4.8倍,并将训练时间缩短4.8倍。

此外,销售预测和推荐模型目前正受到更多关注。与用于销售数据分析的MLP模型训练中的IPU相比,GPU的性能提高了6倍,与推荐的Dense自动编码器模型的训练性能相比,IPU的性能提高了2.5倍。

打开网易新闻 查看精彩图片

如果IPU在数据包卷积内核方面更好,则组大小越小,IPU的性能优势就越明显。总体而言,吞吐量增加了4到100倍。

打开网易新闻 查看精彩图片

IPU的三大技术突破

从当前AI应用中IPU和GPU的多维比较中,我们可以看到IPU的优势,这与Graphcore的计算方法的突破以及数据和通信的三项关键技术密切相关。

Graphcore新发布的第二代IPU Colossus Mk2 GC200计算核心已经从1,216个独立的IPU-Tiles单元增加到1,472个,并行执行的总数为8,832个线程。处理器内存已从上一代的300MB增加到900MB。每个IPU的内存带宽为47.5TB / s。

它还包含IPU-Exchange和PCI Gen4与主机交互的接口。 IPU-Link的芯片间互连速度为320GB / s。

打开网易新闻 查看精彩图片

计算方式

选择三种典型的应用场景,从计算级别比较第二代和第一代IPU。 BERT-Large的训练性能提高了9.3倍,三层BERT推理的性能提高了8.5倍,而EfficientNet-B3则提高了7.4倍。与第一代IPU相比,第二代IPU的峰值计算能力提高了两倍。在典型的CV和NLP模型中,第二代IPU的性能比第一代IPU平均提高了8倍。 。

打开网易新闻 查看精彩图片

性能提升非常重要,因为处理器的内部存储已从300MB增加到900MB。Graphcore中国技术应用总经理罗旭告诉雷锋。 “我们对计算能力核心的微体系结构进行了一些调整。每个IPU-Tiles都将具有更强大的性能,整体峰值性能将翻倍。增加。在有效的计算能力方面,处理器的内部存储已经从300M增加到900M,可以带来更大的比特性能改善。”

MK2 IPU添加的处理器内存储器主要用于一些存储空间,以激活和加权我们的模型。由于存储在处理器中的程序所占用的空间与第一代IPU基本上相同,因此可用于增加重量和激活算法模型的有效存储容量超过6倍。

打开网易新闻 查看精彩图片

但,300M处理器本身的内部存储非常具有挑战性。升级到900M时,您面临哪些挑战?罗旭指出:“要使MK2支持8000个超线程并行工作,并确保其各个方面的线性和性能都非常好,这是一项非常复杂的技术。我们使用BSP来设置软件和硬件+编译。确保可以改善性能的机制。软件级别的主要挑战是支持新模型,因此我们的软件Poplar SDK必须继续进行迭代。

如果您比较基于8个最新A100 GPU的NVIDIA DGX-A100,则由8个Graphcore M2000组成的系统的FP32计算能力是DGX-A100的12倍,AI计算方法是3倍,AI计算存储量是10倍。在价格方面,IPU-M2000的价格为259,600美元,而DGX-A100的价格为199,000美元。 Graphcore具有某些具有成本效益的优势。

打开网易新闻 查看精彩图片

从应用的角度来看,在EfficientNet-B4的图像分类训练中,8个IPU-M2000的性能(在1U盒中集成4个GC200 IPU)相当于16个DGX-A100,这可以体现价格优势。十次。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

数据

在数据方面,Graphcore提出了IPU Exchange Memory的交换存储概念。与NVIDIA当前使用的HBM技术相比,每台IPU-M2000 IPU机器可通过IPU交换内存技术提供近100倍的带宽和约10倍的容量,这对于许多复杂的AI模型算法非常有帮助。

打开网易新闻 查看精彩图片

计算方法加上数据的突破可以使IPU在本机稀疏计算方法中展现出IPU性能优势的10到50倍。在数据和计算方法密集的情况下,GPU的性能很好,但是随着数据稀疏性的增强,当数据稀疏和动态稀疏时,IPU的优势越来越明显。

Graphcore中国公司高级副总裁兼总经理陆涛表示:“现在,随着一些世界领先的研究,例如NLP,每个人都开始探索稀疏NLP等算法模型。我们的技术对许多超大规模研究非常有帮助。 AI模型。”

打开网易新闻 查看精彩图片

通讯

对于数据中心中的当前大规模计算方法,通信也是一个非常关键的问题。为此,Graphcore专为AI水平扩展设计了IPU-Fabric。 IPU-Fabric可以实现2.8Tbps的超低延迟结构,并且可以支持多达64,000个IPU水平扩展。

陶璐说,IPU-Fabric由三种类型的网络组成。第一个是IPU-Link,第二个是IPU网关链接,第三个是IPU over Fabric。IPU-Link用于提供机架中IPU之间的通信接口。 IPU网关链接提供机架之间的网络以及机架之间的水平扩展。基于光纤的IPU可以将IPU群集和x86群集连接到一个非常灵活,低延迟和高性能的网络。

打开网易新闻 查看精彩图片

结合计算方法,数据和通信方面的突破,可以用于构建大规模且可扩展的IPU-POD系统。用于超级计算规模的IPU-POD形式为IPU-POD64,它是IPU-POD的基本组件。每个IPU-POD64机柜总共有64个IPU,它们可以提供16PFlops的计算能力和58GB的处理器内存储器,以总计提供7 TB的流存储。

打开网易新闻 查看精彩图片

因此,在IPU-POD中将AI计算方法与逻辑控制解耦非常重要,这样系统易于部署,网络时延很低,可以支持很大的算法模型,并且非常安全居民使用。

陶路说:“ IPU-Fabric支持多达64,000个IPU-POD集群,总共可以提供16个EFlops FP16计算能力。在日本发布的超级计算机具有0.5 EFlops的计算能力。我们总共可以建立64,000个IPU。 16 EFlops,太神奇了。”

Graphcore为什么值得NVIDIA注意吗?

“目前,超大规模IPU-POD技术的主要应用场景仍是大规模AI培训,包括自然语言处理和机器视觉应用。IPU-POD具有优势。”陆涛指出:“例如,训练模型时,GPU性能为1。也许一台机器上有8张卡,性能高于0.7。但是如果场景扩展到1000个GPU或数千个GPU ,性能可能会下降到0.7、0.6,更好或0.8,并且非常大IPU-POD对于帮助您解决大型集群的可伸缩性问题非常重要。

此外,从功耗的角度来看,不同的场景会有一些差异。通常,单个M2000的整个系统的功耗为1.1KW,相当于每个IPU处理器的性能/功率比为0.9TFlops / W。在数据中心高性能AI计算的同类产品中,能效比高于A100 GPU的0.7TFlops / W和华为Ascend 910的0.71TFlops / W。

换句话说,在大型数据中心,Graphcore将与NVIDIA正面竞争。Lei Feng.com认为,与竞争对手的GPU相比,NVIDIA不应该忽略Graphcore的IPU。特别是,Graphcore一直强调它是为AI诞生的,目标应用程序也是CPU和GPU都不擅长的AI应用程序。

打开网易新闻 查看精彩图片

这也可以从Graphcore的软件和生态建设中看出。 IPU作为通用处理器,可以同时支持训练和推理,并提供统一的软件平台。最新的POPLAR SDK1.2具有三个功能:首先,它将与更高级的机器学习框架集成。其次,进一步开放低级API,以便开发人员可以对网络性能进行特定调整。第三,增加框架支持,包括对PyTorch和Keras的支持,并优化卷积和稀疏库。

此外,支持全面开发框架的三个主流操作系统ubuntu,RedHat和CentOS降低了开发人员的难度。同时,通过进一步打开低级API,可以开源POPLAR PopLibs源代码。这些任务旨在使开发人员能够使用IPU进行创新,并在新的应用领域中建立IPU的竞争优势。

打开网易新闻 查看精彩图片

此外,Graphcore还为企业用户,大学和研究机构以及个人开发人员在不同时间段提供免费的IPU使用。在中国,Graphcore IPU开发人员云已部署在金山词霸云上。使用了三种IPU产品,其中一种是IPU-POD64,浪潮的IPU服务器(NF5568M5)和戴尔的IPU服务器(DSS8440)。

Leifeng.com了解到,Graphcore IPU开发人员云的当前应用主要是企业用户和大学,个人研究人员相对较少。

IPU开发人员云支持一些最先进和复杂的AI算法模型的训练和推理。例如,一些机器视觉应用程序模型(例如ResNeXt,EfficientNet等)主要由分组卷积表示。基于时间序列分析应用程序,自然语音应用程序,广告推荐,财务算法等中使用了大量模型(例如LSTM和GRU)。就概率模型,某些算法交易模型而言,深度自动编码器等排名和推荐类别基于MCMC的有很好的表现。

打开网易新闻 查看精彩图片

陶路说:“ Graphcore已经找到了自己的足迹。我们首先想到的是IPU如何帮助客户和合作伙伴解决使用CPU或GPU无法解决的问题。从全球范围来看,我们最快的应用程序仍然很大。在数据中心,他们在金融,医疗和卫生领域取得了长足的进步。”

还有一个非常关键的问题,影响到IPU的大规模商业使用。高达900M的片上存储的第二代IPU成品率的成本是多少?

卢涛说:“成本分为人员,工具,IP和磁带输出成本几个部分。因此,必须考虑两个部分。第一部分是芯片生产的BOM成本。这部分基本上是固定的。因此,好处第二部分非常重要,我们使用从第一代产品到第二代产品的分布式存储体系结构,它将很好地控制产品的输出,因此即使是900M处理器的内部存储也不会对成本产生特别大的影响。"

打开网易新闻 查看精彩图片

Graphcore已经拥有许多云合作伙伴,并且正在通过硬件和软件构建中国创新社区,以开发其生态系统。然后,通过与OEM和渠道合作伙伴合作,它将如何与NVIDIA竞争?

打开网易新闻 查看精彩图片