打开网易新闻 查看精彩图片

世界上最大的处理器制造商 Cerebras Systems打破了使用单一设备训练的最复杂 AI 模型的记录。

借助由公司的晶圆级芯片 ( WSE-2 ) 提供支持的一个CS-2 系统,由于软件级别的新优化,Cerebras 现在能够训练具有多达 200 亿个参数的 AI 模型。

该公司表示,这一突破将解决人工智能工程师最令人沮丧的问题之一:需要在数千个GPU上划分大型模型。结果是一个大大减少开发和训练新模型所需时间的机会。

Cerebras 将人工智能带给大众

自然语言处理 (NLP) 等子学科中,模型的性能与参数数量呈线性相关。换句话说,模型越大,最终结果越好。

如今,开发大规模 AI 产品传统上涉及在大量 GPU 或加速器上传播模型,这可能是因为内存中存储的参数太多,或者计算性能不足以处理训练工作负载。

“这个过程很痛苦,通常需要几个月才能完成,”Cerebras 解释说。更糟糕的是,该过程对于每个网络计算集群都是独一无二的,因此该工作不能移植到不同的计算集群或跨神经网络。这完全是定制的。”

尽管最复杂的模型包含超过 200 亿个参数,但在单个 CS-2 设备上训练相对大规模的 AI 模型的能力为许多人消除了这些瓶颈,加速了现有参与者的开发,并使以前无法使用的参与者民主化。参与空间。

“Cerebras 能够以具有成本效益、易于访问的方式将大型语言模型带给大众,这为人工智能开辟了一个激动人心的新时代。Intersect360 Research 首席研究官 Dan Olds 说:

“看到 CS-2 客户在海量数据集上训练 GPT-3 和 GPT-J 类模型时所做的新应用和发现将会很有趣。”

更重要的是,Cerebras 暗示其 CS-2 系统将来可能能够处理更大的模型,“甚至有数万亿个参数”。同时,将多个 CS-2 系统链接在一起,可以为比人脑更大的 AI 网络铺平道路。