导语:我们常常羡慕 BAT 的元老级人物。但回到二十年前,又有多少人会选择刚刚起步的 “BAT”?

作者 | 陈彩娴

“我要拍照。”在开车时下达一个这样的命令,看似能够简单实现,但却需要在机器上运行大量精准识别目标语音的复杂算法。

在现实生活中开车,车里车外往往是一个声音嘈杂的环境。如何将语音精准分离识别,是智能驾驶领域的重要研究命题之一。

自动语音分离,即将一段输入音频信号分离为单独的音源。 纯音频的语音分离存在一个根本问题,即“标签置换问题”(label permutation problem),难以将视频中每一个单独的音源与相对应的发言人联系起来。

为了解决上述问题,Google Research 的研究员 Ariel Ephrat 等人在2018年提出 将语音与图像进行结合研究 。他们提出了一个语音-视觉模型(见下图),能够在视频中存在多个发音源时,将目标发声者的声音进行分离与增强。

打开网易新闻 查看精彩图片

但这个工作仅限于学术上的早期探索,要达到工业级的模型训练并实现量产落地完成实时预测,还有大量的探索工作需要完成。

自2018年10月入职地平线(Horizon Robotics)后,宫一尘便一直在研究解决这个难题。 基于对深度学习的广泛理解和对于地平线芯片的深度认知,他提出了在BPU芯片上能够高效运行的世界首个多模命令词识别算法方案。

在他与团队的不断努力下,与地平线合作的长安 UNI-T 成为了世界上第一款能够“读懂唇语”的汽车。

宫一尘的本科就读于纽约大学计算机科学专业。留学期间,他曾发表 3 篇顶会论文,在 Yann LeCun 实验室与谷歌 AI 实习,但是,2018年本科毕业后,他没有考虑读博或进大厂,而是选择加入了当时成立不过三年半的地平线担任算法工程师。

选择一家创业公司,既需要勇气,也需要眼力。但事实证明,宫一尘没有选错:

成立于2015年6月的地平线,经过短短不到六年的发展,已成为国内边缘人工智能领域的独角兽,量产了中国首款车规级人工智能芯片(“征程”),旗下智能驾驶业务在2019年达到数亿元营收,2021年完成了高达 9 亿美元的 C 轮融资。

在地平线的平台上,宫一尘也实现了自我的蜕变: 基于地平线Matrix 计算平台上率先实现唇语多模算法的落地,入职不到半年就晋升为地平线多模态语音组的负责人。

宫一尘希望,接下来能够与更多对多模态语音算法感兴趣的工程师合作,在智能驾驶业务中量产更多多模语音功能(如多模态语音分离),更上一层楼。

1

追随 IDL 至地平线

相比同龄人,宫一尘对职业发展的考虑更早:刚到纽约上大学时,他就已经开始思考毕业后应该选择什么样的职业方向与发展路径。

打开网易新闻 查看精彩图片

图注:纽约大学校门

生长于长三角地带的宫一尘,在青年时期便受到沿海开放创新的商业精神影响,从高中起就开始热衷于倒腾小创业项目。比如,他在高二那年便与同学联合创立美国本科留学生问答社区“九颗糖”,担任社区运营与HR;大一时创立了一个提升美本留学生申请背景的咨询平台“咕噜导师”,以及帮助国际学生在中国找工作的网络平台“归鹿招聘”。

这些经历表明了他对产业发展的热情。尽管这些项目持续的时间均不长,但对学生时期的宫一尘来说,极大地拓宽了他的视野并教给他了战略思考的能力。比如,在做选择与决定时,他往往会先去分析与思考:一个可能性的边界和前景是怎样的?

这一思维也被应用于他的职业选择。2015年,在思考职业方向时,宫一尘先结合自己的专业知识,锁定了三个技术方向:1)计算机图形;2)人工智能;3)虚拟现实(VR)。当时,计算机图形与虚拟现实技术都特别火热,而人工智能只是刚刚起步。

“我在分析时,会先去思考:这些方向在未来分别能有多大的发展潜力?”宫一尘回忆。在不断的调研与深入分析后,宫一尘形成了自己的观点。他认为,计算机图形学和虚拟现实的应用范围相对狭窄,而人工智能的产业空间与应用范围会更广泛。

也是从那个时候开始,他决定将人工智能变成自己的一个使命,大二期间就开始在纽约大学的官网上找课程大纲,并借助公开课资源,开始自学 AI 相关的基础知识,寻找 AI 企业的实习机会。

虽然是在校生,但宫一尘一直有关注业界新闻,也留意到百度深度学习研究院(IDL)的动态。宫一尘回忆:“那时媒体对百度 IDL 的关注与报道很多。当时看新闻说,IDL的创始团队离开百度,创立了一家叫做‘地平线’的新公司,我就去查了一下,申请了他们的暑期实习。”

2016年,也就是大二暑假,宫一尘从美国飞回北京,在创富大厦开始了他的第一份实习:当时,DeepMind 率先使用增强学习完成 Atari 的游戏通关,掀起一波深度学习的浪潮,宫一尘的实习内容便是跟着导师张健(前百度主任架构师)在一个自然语言的游戏上使用增强学习技术通关。

打开网易新闻 查看精彩图片

图注:宫一尘在地平线进行暑期实习

回忆当时的实习经历,宫一尘笑称:“当时是夏天,创富大厦的空调系统坏了,加班时满头大汗。”

那时,地平线成立不过一年左右,公司员工规模不超过100人。但是,进去实习后,宫一尘发现,虽然刚刚起步, 但地平线的人才面试通过率只有 3%。“这是令我们比较开心的一个数字,因为筛选很严格。”

除了对人才的高要求,令宫一尘印象深刻的,还有地平线 CEO 余凯对鼓励年轻人投身 AI 行业的热情:“无论是各个地方的主题演讲,到各大学校的校招,甚至到小小的技术分享会,凯哥都会亲自去演讲,这在我见过的CEO中是非常罕见的。”

在地平线的暑期实习燃起了宫一尘对人工智能产业的热情,“也让我看到了这个行业的深度,以及最优秀的人在做什么事情。”比如,地平线的技术人员应用人脸识别、手势识别、语音对话等人工智能技术,实现了无遥控操作空调运转, 这令宫一尘对技术应用的前景有了更多信心。

于是,实习结束回到纽约后,宫一尘便想要加入实验室,跟着优秀的导师做科研。除了计算机科学的专业知识学习,宫一尘努力抓住每一个能够进行 AI 科研、提升技术能力的实践机会:

2016年9月回到纽约后,他给 CILVR 实验室(由深度学习三巨头之一的 Yann LeCun 领导)里的 Samuel Bowman 助理教授发邮件毛遂自荐,介绍自己的知识基础与实践经验(地平线暑期实习)。“也许他觉得我还不错,就说可以指导我。” 于是,宫一尘便在本科大三破格加入了 CILVR 实验室 ML^2 (Machine Learning for Language) Group 学习, 成为 CILVR 历史上不多见的本科生 。

2017年暑假,他又飞回北京参加地平线的暑期实习。 在第二次实习中,宫一尘在张健、罗恒的指导下,提出了一种新的网络框架用来在交互空间中提取层次化语义特征,冲上自然语言推理领域三个数据集 SNLI、MultiNLI 与 Quora Question Pair 的榜首,斩获三个世界第一,准确率最高达 88.9%。 这个工作“Natural Language Inference over Interaction Space”后来成功发表在 ICLR 2018,最高引达 175。

打开网易新闻 查看精彩图片

图注:2017年9月22日SNLI数据集榜单

2018年6月,宫一尘又被破格录取,加入谷歌 AI 的博士生实习项目,研究自然语言的结构表示,即用深度学习的向量特征去学习如何表示自然语言当中的文字结构。“这在当时是一个比较小众、比较前沿的方向,但现在已经变成了一个非常火热的方向。”

2

不只想做学术研究

本科期间,宫一尘发表了 3 篇会议论文,其中顶会一作 2 篇。在 Google Scholar 上拥有姓名的本科生屈指可数。 但对宫一尘来说,无论是进入 LeCun 实验室做科研,在谷歌 AI 实习,发表顶会论文、关注学术进展,最终都是为了更好地将 AI 技术应用落地,让人们的生活更智能。 在这一点上,地平线无疑更接近宫一尘的理想。

打开网易新闻 查看精彩图片

宫一尘在 CILVR 实验室做了两年科研。在导师 Samuel Bowman 的指导下,宫一尘发表了第一篇顶会论文 (ACL 2018):“Ruminating Reader: Reasoning with Gated Multi-hop Attention”。科研过程中,他能感受到:“ 那个实验室是真的能代表深度学习最前沿发展的实验室 之一。”果然,实习结束第二年,Yann LeCun 便凭借其在深度学习的工作获得了2019年图灵奖。

谈起 CILVR 实验室的科研感受,宫一尘总结:“我觉得它是我在科研路上的一个领路人。 除了专业知识之外,我觉得那种对于知识的热爱,对我有非常大的影响。 ”

“在科研过程中,你会知道学术界或者学者是怎么思考,怎么交流,学术界的生态是怎么样构建,包括一些前沿的知识是怎么被思考创造出来的。你还能感受到大家对于学术和新想法的热情,会看到博士生、研究生、本科生想到了一个想法就很开心,然后就跟另外一个哥们一拍即合,去把东西写出来。在这个环境中,真的会被那种氛围所打动。”

2018年,宫一尘本科毕业。当时他也曾想过加入学术界,但他没有选择继续读博:

“你会发现, 在每一个行业起落的过程中,每一项技术都有自己的时间点 。在我毕业的那个时间点,我看到很多人加入学术界,在学术界中,他们做的可能要么是过于前沿的,要么是在已经成熟的内容上添砖加瓦。我就觉得, 在那个时间点,如果不在这次科技浪潮中参与到落地深度学习的工作中的话,可能就需要再等十年了。 ”

与早期的创业精神一脉相承的是,宫一尘始终认为, 自己的价值在于能把看起来很好的技术做成实际的产品,让更多的人能真正感受到新技术所带来的变化。

“之前有一个博士生朋友跟我说,最不能问博士生的一个问题,就是‘你做的东西有什么用?’真的很难回答,因为他们可能做的是一个细节问题,一个领先5~10年的探索,你今天可能不知道它有什么用,但是5~10年之后,它有可能会有用,也有可能会被遗忘。”相比学术研究,宫一尘更想发掘一些新研究的价值,让技术落地。

打开网易新闻 查看精彩图片

图注:宫一尘在美国时曾自己动手组装过一个土法无线充电器,插上microUSB即可使用

“回过头来看,我觉得这个选择也没有错。”宫一尘继续介绍:“就像我现在在地平线做多模态语音一样,我也是坚持这个原则。 我的目标从第一天开始,就是要把它做到落地,而不是为了发表一篇文章而去做。” 目前来看,宫一尘确实实现了全球首次量产多模语音算法的小目标。

确定去业界后,宫一尘原本也有机会留在美国工作,甚至加入谷歌 AI 做研究:“因为我当时的实习评分还是很高的。”

2018年6月,宫一尘结束了 CILVR 实验室的研究,进入谷歌 AI 的博士生实习项目进行实习。这个实习项目原本标明只招博士生,他一直不敢投简历。后来,谷歌 AI 的一个研究工程师写邮件给他,就他发表于 ICLR 2018的论文提出了一个问题。他解答了他们的问题,同时在邮件中问了一句:“你们是否还招实习生?”

“他们给我的答案是‘Yes’。”在Ta的引荐下,宫一尘加入了面试流程,并凭借其对自己专业领域的深入理解与技术实践能力,顺利通过了面试,再次成为当时组里凤毛麟角的本科实习生之一。

在谷歌 AI 实习期间,令宫一尘感到最震撼的,是见证了 Bert 模型的论文诞生 :

打开网易新闻 查看精彩图片

“我每周会参加周会,然后就会看到 Jacob(Bert 论文一作)汇报进展。他复现OpenAI的预训练语言模型GPT只花费了一周,同时发现效果不如预期,拿到大数据,重新训练定位出问题只花了两天。到下次开会时,他的新想法已经超过了 OpenAI 模型,再到下周开会时,就有了现在 Single Model 在几个任务上获得SOTA的成绩。看到指标提升非常多,Jacob感觉这是一个很大的事情,然后他又非常快速地把论文写好,再把代码开源出来。”

这个过程让宫一尘见识到了深度学习时代的速度和执行力:

“当时我就惊呆了:他的怎么会效率这么高? OpenAI 在预训练他们的语言模型时花了一个月,而 Jacob 用 TPU 只花了一天。OpenAI训练语言模型基本是按照原来Transformer的配置,调整一些参数,而Jacob可以随心所欲地尝试自己新的想法。未来真的是算力的时代! ”

宫一尘记得,在他和 mentor 表示他对于 Jacob 的水平的惊叹后,他的 mentor 淡淡地跟他说了一句:“只要打磨几年,你也能成为这样的人。” 这充分说明了谷歌 AI 藏龙卧虎。

但当时,宫一尘已决定回国发展:“ 想回国参与创业的氛围。 ”

与谷歌 AI 相比,并基于2016年与2017年的两次暑期实习经历,宫一尘认为,地平线的研究团队完全有能力去做许多前沿研究,但地平线更关注如何将新兴技术转化到工业场景中,实现技术本身的应用价值,这更接近宫一尘的追求。

3

地平线:“草莽”英雄聚集地

在电影《加勒比海盗:黑珍珠号的诅咒》的最后,杰克船长历经艰险,终于夺回“黑珍珠号”。他说了一句:“Now, bring me that horizon.”(现在,我们向地平线出发。)

打开网易新闻 查看精彩图片

“因为地平线一直在那里。你想到达那里,但你永远也到达不了。就是那样,遥不可及,又难以放弃。”。

地平线的英文名为“Horizon”,指“天空与地面相遇的地方”,也指“人类可触及的最遥远的边界”。地平线的创始人余凯曾说:这代表了他们的核心精神—— 对不断超越边界的执著,不断抵达一个个看似遥远、强大又真实存在的边界。它既是一种理想主义,也是一种脚踏实地的实干精神。

这种精神吸引了许多有梦想的年轻人,宫一尘也是其中之一。

自2016年夏天进行第一份暑期实习开始,宫一尘在地平线已呆了将近 5 年:2016年暑期实习,2017年暑期实习,2018年10月正式入职担任算法工程师。

“我其实非常享受这段经历。对我来说,每个时间点都是一个切片,能体验到在那个时间节点的发展线,一直跟一根线走过来,经历了很多不一样的事情。”

在地平线的第一次实习便让宫一尘决定加入地平线:“ 因为我在地平线看到了一个创业公司真正该有的样子。 ”

他提到自己大学早期所从事过的几段创业经历:在这个过程中,他们不仅需要面对技术上的挑战,还需要整合资源,考虑如何吸引更多人与他们合作。不断打磨后,除了个人能力得到成长,他也逐渐认识到要商业的运转方式。

“跟我之前那些小打小闹的 business 相比,我觉得地平线是一个理想的创业公司。它的团队组成,人才配置,内外部情况等等,都是比较理想的状态。 我当时就结合自己的经历判断,觉得地平线有潜力做大,就算再差也不会失败。 ”

另一方面,地平线主要做人工智能芯片,宫一尘非常认可这一技术路线:“ 我觉得人工智能芯片是人工智能时代的一个基础设施,只有有了这种基础设施之后,人工智能算法才能获得最大程度上的发展。 ”

2017 年夏天,宫一尘再回地平线实习时,公司已经搬到海龙大厦,员工规模已接近 300 人,40% 具有海外经验,拥有博士学位的员工高达 14%,平均工业界经验5年以上,并已探讨出具体的业务方向,“然后发现大家讨论的内容也更聚焦了。”

那一年,地平线联合英特尔发布ADAS系统,成立上海自动驾驶研发中心,完成由英特尔领投的超过一亿美元的A+轮战略投资,并推出数字芯片“征程”与“旭日”。

到2018年,宫一尘入职地平线成为正式员工后,地平线已经推出中国第一个基于ASIC的人工智能处理器,以及基于征程2.0处理器架构的高级别自动驾驶计算平台Matrix 1.0,拥有超过350名员工,收入较2017年增长了8倍。

同年,地平线与 Linkplay在前端声学领域达成合作,采用深度学习算法,成功解决远场低信噪比下的拾音问题,提高语音识别率。那是地平线第一次进行语音与图像的结合研究。 宫一尘加入地平线第二周后,便开始沿着这一个方向努力,基于Matrix 1.0计算平台,尝试开发多模命令词识别解决方案。

入职短短半年,宫一尘便从算法工程师晋升为多模语音项目的负责人。对于这一点,宫一尘表示很感谢地平线的知遇之恩:“我觉得地平线在用人方面充满了决断力,看到了年轻人的潜力就能授权去做这么大的事情。”

地平线的核心业务是人工智能芯片,此外还有两条重要的业务线,分别是自动驾驶与智能座舱,而 多模态语音便是智能座舱中的一个亮点模块 。

入职后第二年,2019年,地平线获得约 6 亿美元的 B 轮融资。因其在资本寒冬里再次获得重量级投资,地平线被媒体称为“全球最具价值的AI芯片公司”。当时,地平线的员工已扩招至将近 1000 人。宫一尘感叹,刚到地平线实习时,他还有机会与余凯进行面对面的交流,而公司规模扩大后,面对面深入交流的机会变得非常难得。

2019年,经过四年的摸索,地平线进行了战略调整,从创业最初要做的“AI 时代的 Intel Inside”转为要做“AI on Horizon”,聚焦做芯片解决方案,只做平台赋能,不做垂直整合。 这一调整恰好消除了宫一尘当初认为“地平线业务分散”的担忧。随着地平线的定位越来越清晰,他更加肯定了自己当初“只考虑加入地平线”的选择。

“我就签了这么一个公司,就过来了。”

加入地平线后,宫一尘认为,自己在技术积累、处理工作与沟通能力等各方面都经历了巨大的成长:“我们是在不断地迭代优化流程和思路,针对某一个时间点所面临的问题不断调整方案。 在承受巨大挑战的过程中,你会不断拓展自己的维度,知道怎么样做事情可以做得更好。 ”

4

全球首创:唇语多模量产算法

语音技术的远场和高噪场景一直是真实场景中语音识别的痛点 ,即使 2016 年微软声称已经实现了超过人类的语音识别技术,在switchboard上达到了5.9%字错误率,但也仅限于比较干净的数据中。而真实场景的高噪声语音数据,可以达到30~40%的字错误率,极大地影响了使用的体验。当前的语音系统在展会,车站,高速行车,外放音乐的场景均没有很好地使用体验, 高噪声强干扰的场景将成为语音供应商的兵家必争之地。

2018 年学术界开始掀起关于多模语音相关浪潮的元年,谷歌、VGG 实验室、Netflix等实验室分别发表关于音视觉多模态相关的文章,在小规模的高噪声测试集上获得了客观的性能提升,展示出了极大的技术潜力。 捕捉较为稳定的视觉线索作为高噪声场景中不稳定语音信号的辅助,在深度学习模型中融合并进行联合预测,成为了一个很有前景的技术路线。

地平线的多模语音算法团队是 全球首个能够在端上实时预测并实现大规模量产 的团队。当问到与市场上其他竞品的区别时,宫一尘回答:“绝无仅有。”

2018年秋天,学术界也尚未充分探索唇语语音融合的多模态算法,但牛建伟与宫一尘等人已将目标定为“量产”,并基于征程芯片在2019年年首次实现多模语音技术demo,在2020年长安 UNI-T 车型上实现大规模量产。截至目前,国内市面上尚没有竞品实现多模语音的实时展示。

打开网易新闻 查看精彩图片

图注:2019 年上海车展上,宫一尘的唇语多模算法 demo 引起车企关注

当初,牛建伟提出研究多模态语音算法,基于对技术的理解,宫一尘认为,“凭借地平线的软硬件结合的方案,我们是可以做成功的。”

一方面,此前市场上和论文中的参考方案都是离线算法方案,无法对视频数据进行每秒30帧的实时处理;

另一方面,由于网络带宽的限制,不仅需要将720p的视频分析处理能力在端上做到每秒30帧,还需要将视频序列和语音这样的异构数据在模型中融合,实时产出结合视频语音信息的处理结果,并在强干扰的情况下产出远好于纯语音方案的效果。

凡此种种限制,让多模语音系统堪称人机交互领域的探月工程。

而地平线的征程2汽车智能芯片恰好提供了足够多的技术支撑。在算力方面,他们定制了轻量级网络方案;训练图片数据量上亿,他们升级了整套训练技术架构;硬件运行效率有风险,他们深入底层去优化每一个细节;指标不及预期,我们拆解所有相关的模块,进行指标的升级。

最后,他们把视频和音频进行实时处理,在芯片当中实现多模态融合的同时升级了语音从前端到后端的整个技术链路,效果非常好。

“在我们之前,从来没有人干成过这个事情。 这也意味着,这个事情没有可参考的方案,没有可模仿的路径,没有前人的经验可借鉴。”

地平线唇语语音算法的一个功能是多模命令词唤醒。在一次客户在场监督的对标测试中,误报率保持在相同水准的情况下, 地平线的多模免唤醒命令词方案在人声干扰的场景和外放音乐干扰的场景中,召回率达到了85%和93% ,而作为对比,BAT某大厂的纯语音量产方案仅为8%和15%,误报指标相当。这是一个不可思议的成绩,宫一尘称之为“ 边缘小人物对于巨大共识的逆转尝试 ”。

 宫一尘:在地平线研究 AI 的第五年,不止率先量产“唇语算法”
打开网易新闻 查看更多视频
宫一尘:在地平线研究 AI 的第五年,不止率先量产“唇语算法”

图注:宫一尘团队的多模命令词唤醒方案演示

他们的多模免唤醒命令词方案顺利量产,当前已经运行在十万辆车上,这个数字还在快速上升中。在长安汽车近日公布的2020上半场“销量答卷”中,UNI-T上市 10 天销量便达到 7414 辆,订单则突破 20000。

“今年我们预期将累计上万小时的音视频多模态有效数据,这意味着十亿级别的图片训练数据,万小时十亿级别图像的训练数据架构。我们将实现结合视觉输入的语音分离的量产落地,拥有相似人声的双胞胎面向单麦克风的人声分离将成为现实。

我们还将完成多模态通用识别的研发,自此行车至每小时100公里开着窗仍然能实现自由的语音交互。还有超大规模的多模自监督学习,多摄像头多语音通道多模算法,实时光流多模语音算法等领先于学术界工业界的超前沿算法研究等待被探索。”

图注:宫一尘团队多模态语音分离方案演示

5

追求:技术落地

对技术落地的执著与热爱,是宫一尘矢志不渝的追求。

作为国内唇语多模算法研究的先驱青年,宫一尘对多模态算法研究有更大的野心:继多模命令词识别功能之后,他与团队希望, 接下来能够在更多车型上量产更多语音功能 ,比如多模态语音分离,多模多音区,多模语音识别等等。

对于自己所取得的小成就,宫一尘认为,除了技术能力的加持与积累,早期创业的经历也扮演了重要的角色:“如果算法工程师是纯技术出身,那么Ta的关注点会局限于一个个技术点,但 我会把自己的事情当成一个小的创业公司去经营,思考技术的应用场景与客户需求。 ”

:在 AI 领域,业界做得非常成功的人或团队都有一个特点,就是业务化。 他们不光懂算法,而且懂得怎么用算法。 宫一尘便是一位这样的算法人才。

因此,当问到希望吸引什么样的优秀人才到地平线做研发时,他也明确表示:“ 我们不希望吸引只想做纯研究的研究员,我们希望吸引的是站在前沿的学术和新兴产业交汇处的下一个明星。 ”

随着 AI 从与互联网的结合逐渐过渡到与传统制造业的结合,智能座舱也成为一片新的蓝海。而作为国内首个量产多模态语音算法的算法负责人,相信宫一尘将继续成长,与我们再次相遇!