斯坦福教授曼宁：AI巨模型训练成本动辄几十万，穷博士和小公司用不起了

新智元

2021-10-23 13:03

新智元报道

来源：Wired

编辑：David

【新智元导读】近几年来，AI模型性能越发强大，但规模也越做越大，训练成本高居不下，小公司即使想用也往往有心无力。未来的AI创新真的只能靠巨头了吗？

Glean是一家从事搜索业务的创业公司，一直很想使用最新的AI算法来改进公司的产品。

Glean提供Gmail、Slack和Salesforce等应用程序进行搜索的工具，用于解析语言的新AI技术，可以帮助公司的客户更快地发掘正确的文件或对话。

但是训练这样一个尖端的人工智能算法需要花费数百万美元。因此Glean使用更小、能力更弱的AI模型，这些模型无法从文本中提取出尽可能多的含义。

Glean对此也是颇为无奈。

「对于预算较少的小企业来说，很难获得与谷歌或亚马逊等公司相同精度的结果，对于这些小公司而言，要想搞出最强大的人工智能模型是不可能的。」公司表示。

过去十年中，AI产生了一系列令人兴奋的突破，目前已经可以在复杂的游戏中击败人类，可以在特定条件下驾驶汽车穿过城市街道，响应口头命令，并根据简短的提示编写连贯的文本。

一方面，这些进步在很大程度上是因为算法有了更多的文本作为训练数据。另一方面，为了消化这些数据，使用了更多的芯片。

这是要花钱的。

以OpenAI的语言模型GPT-3为例，这是一个大型的、数学模拟的神经网络，从网络上抓取大量文本进行训练后，GPT-3可以以惊人的连贯性预测哪些词应该填在其他词前后，生成流畅的文本，而且是开箱即用的。

GPT-3在回答问题、总结文本和纠正语法错误等任务上明显优于以前的 AI 模型。与上一代的GPT-2相比，性能实现了1000倍的增长。不过，据估计，训练GPT-3的成本接近500万美元。

「如果GPT-3既方便又便宜，会大大增强我们的搜索引擎，那会非常非常强大。」

对于希望拥抱AI转型传统企业来说，训练高级AI的成本不断上升也同样是一个问题。

Dan McCreary在健康IT公司Optum领导一个团队，该团队使用语言模型来分析通话记录，识别哪些患者风险较高，哪些应该及早推荐转诊。

他说，现在即使训练一个GPT-3大小千分之一的语言模型，也会很快耗尽团队的预算。他们需要的模型针对特定任务进行训练，成本可能超过50000美元，这笔钱要付给云计算公司，作为租用其计算机和程序的租金。

McCreary表示，云计算供应商没有理由降低成本。现在他正在考虑自己购买加速人工智能训练的专用芯片。

现在，许多学术实验室和创业公司可以直接下载并使用最新的理念和技术。比如在图像处理方面取得突破的算法来自学术实验室，使用现成的硬件和公开共享的数据集开发。

然而，随着时间的推移，越来越清楚的一点是，AI的进步与底层计算机性能的指数级增长息息相关。

有了算力，才有创新。没有钱，就没有算力。

现在，一些大企业进一步把这个趋势推得越来越高。近日，微软表示，它和英伟达合作，构建了一个比GPT-3大两倍的语言模型。

MLCommons是一个跟踪AI专有芯片性能变化的机构。该机构的执行董事大卫·坎特 (David Kanter) 表示：「未来训练 AI 的成本绝对会继续上升。」

Mosaic ML的技术可以帮助大公司将模型提升到一个新的性能水平，也可以帮助没有深厚AI专业知识、也没那么有钱的小公司利用AI技术。

利用最新技术的成本不断上升，可能会将创新留给最大的公司和租赁工具和算力的公司，从而减缓创新的步伐。

「我认为这种情况确实会阻碍创新。」专门研究人工智能和语言的斯坦福大学教授克里斯·曼宁说。

「当只有少数几个地方才能研究这些大模型的内部结构时，出现创造性新成果的几率一定会大大降低。」

曼宁说，就在十年前，他的实验室有足够的计算资源来探索任何项目。「一个努力工作的博士生就可能会做出最先进的工作，而现在，这个窗口已经关闭了。」

与此同时，不断上涨的算力成本，促使人们寻找更有效的AI算法训练方式。目前已经有数十家公司开发用于训练和运行AI程序的专用计算机芯片。

所以，特斯拉设计自己的车载芯片，也许只是为了训练自动驾驶的AI模型。

Mosaic ML是一家源自MIT的初创公司，主要开发提高机器学习训练效率的软件和技术。

一种技术是对神经网络进行「修剪」，消除网络结构中的低效率部分，创建一个功能类似、但规模小得多的网络。

早期的结果表明，这种方法应该可以将训练GPT-3之类的网络所需的计算机功率减少一半，从而降低开发成本。

Mosaic ML计划将大部分技术开源，同时也为降低AI技术成本的公司提供咨询服务。Carbin说，未来可能会有一种这样的产品，一款能够在训练模型的准确性、速度和成本方面实现权衡的工具。

「不过目前，还没有人真正知道如何将所有这些方法组合在一起。」他说。

https://www.wired.com/story/ai-smarts-big-price-tag/

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴