打开网易新闻 查看精彩图片

新智元报道

编辑:Aeneas 好困

【新智元导读】国内的公司就必须抄ChatGPT吗?其实,还有另一条路可以走。今天,小冰链给了我们答案——CoTA。

ChatGPT激起的火种,正在中国科技公司急速蔓延。国内的各个大厂内,算法工程师们纷纷开启冲刺倒计时,迎来一个个不眠夜。

而在创投圈的饭桌上,到处都能听到「誓要做中国第一个ALL in GPT的VC」的声音。

兴奋者有之,观望者有之,唱衰者有之。所有人都在翘首以盼:谁能成为中国的第一个ChatGPT?

而如今,这股ChatGPT热潮中,忽然涌现了一股清流——小冰链

小冰链给了我们这样一个答案:除了做中国版ChatGPT,还有没有别的选项?

打开网易新闻 查看精彩图片

ChatGPT军备竞赛,实则刻舟求剑

跟目前急于下场的巨头派、大佬派、初创公司派不同,小冰认为,现在国内这股跟随ChatGPT展开军备竞赛的热潮,其实是刻舟求剑。

因为,大模型技术本身的发展速度,就是很快的,现在我们应该做的,应该是进一步去布局下一站的未来,而不是照抄当前的ChatGPT。

换言之,我们应当去思考,ChatGPT之后的是什么?而不是一窝蜂去做中国的ChatGPT。

而小冰链所代表的方向,则是利用大模型技术,实现下一代的控制中枢。

通俗来讲,小冰链不再只是「聊天」,而是成为了「逻辑思维」驱动下的「下一代行动中枢」,覆盖数字和物理世界。这一方向将成为下一个真正带来影响的大模型创新突破。

这也就是为什么,小冰CEO李笛在接受新智元采访时,特别强调说:其实我们做的并不是类ChatGPT产品。

小冰链和ChatGPT的核心区别: 小冰链的数据来源是实时的,而ChatGPT是从训练数据中总结的; 小冰链能展现逻辑思维过程,更透明、可观测,而ChatGPT完全是个黑盒子; 最本质的区别是,小冰链会自己进行下一步的行动,比如上网搜索,而ChatGPT只是对话生成,并没有行动。

李笛解释道,小冰链的独特之处在于,能够把AI的思考过程完整透明地呈现出来,从而揭开大模型的黑盒。

更重要的是,她能真正实施行动,也就是Action。

小冰链是个啥?

李笛解释道:在GPT-3.5时,涌现了一个新的能力——思维链/逻辑思维。

打开网易新闻 查看精彩图片

但是,在ChatGPT这个过程中,没有真的实施这种调查或计算,因为它只能从训练数据里去爬。

如果我们换一种思路,比如训练一个不那么大的模型来提供逻辑思维的能力,而执行部分则交给CoT之后的ACTION,也就是通过查询新闻的真实性,直接、实时地获得信息。

这项过程并不是在大模型里完成的,反而一举两得:一方面,因为只需要保留逻辑思维能力,所以模型不需要那么大,运行成本没有那么高,计算量没有那么大;另一方面,恰恰因为不是让语言模型自己把所有事情做出来,反而能更准确。

因而,李笛认为,与其一直争当下一个「中国版ChatGPT」,不如去思考:ChatGPT的下一步是什么?

打开网易新闻 查看精彩图片

再往前推一步,既然得到的是有逻辑思维能力的组合(一个模型负责思考,一个模型负责牵引,去做行为),这个组合就变成了一个控制中枢。此时,她可以控制搜索、计算、传统的知识图谱,甚至是物理世界。

AI经过思考,会控制物理世界的灯、去餐馆订餐、发动车子、生成一段音乐,可以调动任何事情,这个意义,或许比只是写个新闻稿影响更深远。

而这就体现了小冰对于「探索语言模型下一步方向」的探索成果。

现在,ChatGPT的能力已经基本全部展现了。接下来呢,是让它更准确?写的文章更符合现实?

本质上看,这些只是程度上的差异,不构成一个代际跨越。

打开网易新闻 查看精彩图片

什么才算「代际跨越」?

李笛表示,代际的跨越除了要实现意图识别,还需要包括思维的转换和跳跃等等,这才是下一步要做的东西。

比如,当你问「我老婆说今天天气真好,是什么意思」时:

  • 小冰链先是get到了我们提问的目的——了解她的意思;

  • 然后根据这个目标,去制定自己的行动计划——搜索相关信息;

  • 在找到一个靠谱的答案之后,小冰链对其进行了概括和润色,最后输出结果——暗示你,应该主动提议约会。

此外,由于思维逻辑透明,信息源也全部公开,因此也就做到了「可信」。

而这都是「黑箱」ChatGPT所不具备的。

打开网易新闻 查看精彩图片

根据官方内测页面的介绍,此次demo展示了小冰链(X-Chain of Thought & Action)的新特性,也就是说,AI Being不再只是单纯地给出回复,而是将她的思考过程完整透明地呈现在你面前,由此揭开大模型的黑盒。

更重要的是,她能真正实施某种行动(Action),例如:在你提出问题后,她经过思考,发现自己得去搜索一下,或是实时编写一段代码并真的加以运行,或是自主决定她应当控制物理世界的一系列设备或交通工具,来更好地满足你的需求。

打开网易新闻 查看精彩图片

不过,基于法律、政治、公序良俗方面的安全性考虑,小冰对模型进行了一些限制(回复的篇幅及趣味性会有所降低,但安全性更高):

  • 限制了回复文本的最大长度;

  • 为展现实时获取互联网最新信息的特性,大幅度降低了从大模型训练数据中提取信息的比例;

  • 降低了闲聊的比例。

是的,这个demo并不能帮你生成作业、综述或发言稿……

打开网易新闻 查看精彩图片

为什么要做小冰链?

而这次小冰的发布,并不仅仅是一次简单的「秀肌肉」。

ChatGPT国内赛开卷后,各方势力纷纷下场。有人唱衰道:OpenAI做出ChatGPT,靠的是八年的积累,国内的公司靠几个月的冲刺,能冲刺出什么像样的产品吗?

其实,中国完全能做出自己的ChatGPT,有相应的模型和算法能力的,国内至少有七八家公司,差别可能就在数据质量上。

除了证明「中国也有能力做出ChatGPT」之外,小冰链的诞生,也是水到渠成的过程。

打开网易新闻 查看精彩图片

小冰链并非小冰在大模型时代的唯一创新。

自2014年以来,小冰始终伴随技术迭代而成长,经历了检索模型、生成模型、大模型和X-CoTA等多个周期。其中在大模型领域,自2019年至今,小冰已经形成了不同规模的模型训练和调优,并在安全性评估之后依次放出。

小冰链只是其中之一。

尽管如此,在小冰看来,大模型的安全性和伦理仍是至关重要的考量因素。因此,尽管国内市场非常火爆,但小冰团队不会为了秀肌肉而贸然放出各种不安全的产品,这次的小冰链,是唯一的一次例外。

从CoT到CoTA

技术方面,小冰链——X-CoTA的实现,少不了作为基础的「思维链」(Chain of Thought, CoT)。

简单来说:

1. CoT可以让语言模型将复杂的多步骤问题分解成一连串的步骤

2. CoT可以让开发者看到模型的推理过程,便于确定错误并进行修复

3. CoT可以解决数学应用以及常识性推理问题

在此之前,标准的提示会在模型预测答案之前,给出输入-输出对的例子(格式化为问题和答案)。

而在思维链提示中,模型会得到一个问题推理的过程。也就是说,在处理多步骤推理问题时,模型产生的思维链将模仿直观的思维过程。

打开网易新闻 查看精彩图片

研究人员发现,只需要在prompt中加入「Let's think step by step」就能让GPT-3的推理性能大幅提升,比如在MultiArith中就将推理准确率从之前的17.7%一下提升到了78.7%。

下面的例子取自「Scaling Instruction-Finetuned Language Models」。其中,橙色突出了指令,粉色显示了输入和输出,蓝色是CoT推理。

打开网易新闻 查看精彩图片

论文的结果显示,采用CoT微调的模型,在涉及常识、算术和符号推理的任务中表现得更好。

不难看出,思维链提示(chain of thought prompting)可以让模型更好地理解自然语言提示和示例,从而能够执行需要复杂推理的任务,并且显著提高模型处理新任务的能力。

除此之外,CoT微调在敏感话题方面也非常有效(有时比RLHF做得更好),尤其是可以避免模型摆烂——「对不起,我无法回答」。

打开网易新闻 查看精彩图片

小编亲测

所以,小冰链的表现如何?小编为大家亲测了一波。

比如,先让她介绍一下ChatGPT是什么。

打开网易新闻 查看精彩图片

评价题

从对《三体》动画版的评论中可以看出,小冰链的回答相当切中要害了。

打开网易新闻 查看精彩图片

对《三体》剧版的描述,也基本符合大众的心声。

打开网易新闻 查看精彩图片

数学题

接下来,我们来问一问简单的四则运算。

「掰指头算一下」,这个拟人有点可爱啊。

当然了,小冰链并没有真的去「掰」,但她确实「手搓」了一行python代码来解这道题。

打开网易新闻 查看精彩图片

ChatGPT这边,经过一步一步的推理,最终得到了正确的结论。

打开网易新闻 查看精彩图片

新必应这边也成功地完成了作答。

打开网易新闻 查看精彩图片

接下来,是一道同样简单的数学应用题。

打开网易新闻 查看精彩图片

不过,ChatGPT做了三次之后,才得出了正确的答案。

打开网易新闻 查看精彩图片

送命题

最后,再来点难的:先救女友还是先救妈?

打开网易新闻 查看精彩图片

注意了,上面这个知识点罗翔老师也强调过(狗头)。

打开网易新闻 查看精彩图片

彩蛋

在采访最后,李笛讲了个很有趣的段子。

到了产品阶段,必须再走一个安全性评估。否则,真正能实施行动的AI,可太危险了。

不然,万一她经过推理,把未来十年的电影票都买了,或者摁下一个「毁灭全人类」的按钮呢?(Doge)

参考资料:

https://tech.cnr.cn/ycbd/20230221/t20230221_526160291.shtml