科大讯飞智能翻译业务总经理翟吉博
打开网易新闻 查看精彩图片
科大讯飞智能翻译业务总经理翟吉博

出品 | 搜狐科技

作者 | 梁昌均

编辑 | 杨锦

“光靠单点技术,只用语音去解决,可能‍‍会有一定的天花板或者障碍,需要发展多模态的交互方式。”对于人机交互未来的发展趋势,科大讯飞智能翻译业务总经理翟吉博近日在接受搜狐科技独家专访时表示。

作为凭借语音技术发展起来的人工智能企业,科大讯飞近年来在不断推进机器和人进行更好、更自然的交互,并面向2B和2C两个领域进行业务布局。目前,消费者业务已成为科大讯飞核心支柱之一,去年营收超过30亿元,占比达到24%,具体包括讯飞开放平台、输入法、讯飞听见、录音笔、办公本、翻译机等为代表的软硬件产品。

翟吉博看来,AI在2C领域的落地面临不少挑战,但科大讯飞近年来也在不断探索。在不久前开幕的海口首届中国国际消费品博览会上,翟吉博主导研发的讯飞双屏翻译机正式亮相。这是科大讯飞推出的第四代翻译机,是科大讯飞首款,且是业内发布的首款双屏翻译机。

这背后体现出科大讯飞人机交互怎样的发展理念?未来人机交互会呈现什么趋势?作为一名资深的AI产品专家,翟吉博在专访中给出了自己的思考。

2C领域落地挑战更大

翟吉博是科大讯飞消费者业务发展壮大的推动者之一,目前在输入法市场份额占据第二的讯飞输入法就是由他在2010年研发出来,并带领团队推动其用户规模实现从0到5亿的增长,翟吉博也因此被业内称为“讯飞输入法之父”。

自2017年开始,翟吉博又主导起AI+软硬件产品创新项目,推出讯飞翻译机产品在消费市场落地场景,这也带动了翻译机市场的爆发,多家企业纷纷跨界入场。目前,科大讯飞的翻译机市场份额位居行业第一,有报告称其在我国翻译机市场中占据半壁江山。

然而,一个不可忽视的现实是,人工智能发展了这么多年,仍然是以行业应用为主导,2C领域还未形成全面的爆发。“做2C领域的AI消费类产品的落地,‍‍在消费决策上要考虑怎么样能够在最短的时间让潜在的消费者get到产品的价值点,如何去引导他们形成比较明确的购买意向,这是需要解决‍‍的重要问题。‍”自加入科大讯飞就一直从事AI消费者产品落地的翟吉博说。

他认为,2C领域比较大的挑战还在于消费者的容忍‍‍度比较低,尤其是工具型的产品需要用户支撑,而在市场环境竞争相对比较激、开放的情况下,产品的技术、设计、品质等都会被用来比较。

此外,AI本身是一个技术导向的东西,‍‍消费者买单的并不是技术本身,而是希望解决自己的问题。‍‍人工智能到底会起到什么样的效果,人在会潜意识中会去比较,有的AI应用连‍‍用途‍‍解释起来都还比较费劲,因此也会有一个认知教育的过程。

在翟吉博看来,相较AI在2B领域的落地,AI在2C‍‍领域上的决策逻辑上会庞大、更系统,落地挑战也更大。显然,这个市场的全面爆发还需进一步探索挖掘,而科大讯飞作为业内少有的同时布局2B和2C领域的AI企业,近年来在消费者产品上也在持续发力。

此次推出的讯飞双屏翻译机从最初构想到对外发布,前后历时将近两年。按照翟吉博的话来说,投入不小,挑战很大。相较此前推出的产品,讯飞双屏翻译机的人群定位更加垂直和精准,‍商务人群会是更为核心的用户,其可以满足这些用户频次更高和时间更长的交流,使得沟通更‍‍高效、更得体。

据了解,讯飞双屏翻译机可以支持83种语言语音翻译,支持32种语言拍照翻译,并在专业术语领域扩充至外贸、金融、医疗、法律等16大领域。总体功能相较前代产品有了明显的提升和拓展,而售价也提升至4999元。

打开网易新闻 查看精彩图片

在外观设计上,这款产品首次采用了主屏和客屏的双屏模式,并基于‍‍此推出会话翻译功能。“通过双屏模式可以实现更自然、更顺畅的交流,毕竟人跟人的交流核心还是语言的表达、眼神的交流和一些肢体语言,这就需要降低在辅助设备上的操作成本。”翟吉博说。

受疫情影响,出入境受限,科大讯飞的翻译机销量去年也有所下滑。不过,翟吉博表示,这会使得高度依赖语言交流的场景,‍‍从原来的面对面,‍‍更多转移到线上,这也带来了一些机会。讯飞双屏翻译机的同声翻译功能就顺应了目前的线上趋势,通过打造跨屏融合的模式,可以将翻译机和电脑连接起来,适用于上外语网课、听跨语视频演讲等场景。

AI在人机交互中发挥重大作用,需突破单点技术障碍

此次科大讯飞推出的双屏翻译机在硬件设计和功能的升级,也是科大讯飞在人机交互理念上的一次体现。‍‍作为科大讯飞几代翻译机的主导者,翟吉博在专访中提到,从底层技术来说,‍‍这些产品在迭代的过程中的核心突破便是来自于交互模式的创新。

“原来的交互模式需要人去配合机器,最早的产品比较依赖按键操作,需要通过按键告诉机器可以开始或结束说话,这种方式好处就是机器比较清楚地知道要处理的是有效输入的信息,不确定性减少,但局限性在于‍‍它‍仅适用于短时的‍‍简单的交流,如果需要多轮或者长时间的交流,效率会比较低。”翟吉博认为,最好‍‍的交互是追求自然,‍‍需要尽量贴近人跟人的交流状态。

从人机交互的发展历程来看,第一代人机交互设备以PC为主,主要通过键盘和鼠标和机器交互。进入移动互联网时代后,手机、平板等交互主要通过触屏方式进行。而随着IOT时代的到来,以语音、视觉等为代表的新一代人机交互正在向我们走来。

翟吉博认为,传统的交互以动手为主,用户指令相对明确,而语音或者视觉交互虽然有一定的不确定性,但好处是‍‍比较自然,比较符合人类本身日常的‍‍习惯,而且适用于一些特定的场景,比如开车的时候,语音在智能家居里的应用也比较广泛。

“这种偏自然的交互,需要‍‍‍‍去做模式识别,需要知道‍‍‍‍用户所说的内容,‍‍及其背后的意思,‍‍所以它本质上需要用‍‍人工智能,‍‍通过感知智能的一些‍‍技术来做处理,只有先把它转化成相对确定性的意图之后,‍‍后面的程序才可以继续进行。‍‍‍‍”翟吉博认为,人工智能在人机交互中能够发挥巨大的作用。

不过,翟吉博提到,目前语音交互尚属于感‍‍知智能层面,如果能达到认知智能,对人机交互将会起到更好的推进作用,会让整个交互更有温度。目前,认知智能跟行业结合的比较深,比如医疗辅助诊断、辅助法官判案、作文批改和阅读理解等都是具体应用。翟吉博认为,虽然认知智能在某些特定领域的单点问题上已有一定应用,但总体还处于初级发展阶段。

对于未来的人机交互发展趋势,翟吉博认为,仅仅依靠单点技术,有可能‍‍会面临一定的天花板或者障碍,需要结合多模态的交互方式,推进技术融合发展。比如对环境的感知,可以用视觉的方式,或者实现个性化‍‍的画像,对各种信息维度进行多模态融合感知,‍‍来做智能的容错和‍‍模型的融合,‍‍这将使得人机交互的自然度和宽容度越来越高。

“但这‍‍需要一步一步去实现,不可能突然爆发出来,至少需要按照5年的时间来看。”翟吉博表示