7月26日,由中国人工智能学会主办、新浪新闻联合浙江大学承办的2020全球人工智能技术大会(2020GAITC)“AI时代下的新媒体与社交娱乐”专题论坛拉开帷幕,新浪集团首席信息官、新浪AI媒体研究院院长王巍,浙江大学特聘教授、悉尼科技大学教授、百度研究院访问教授杨易共同担任论坛主席。

美联社战略和企业发展高级副总裁Jim Kennedy在本次专题论坛上,与来自业界、学术界的嘉宾们分享了《人工智能如何升级新闻工作流程》。

打开网易新闻 查看精彩图片

美联社战略和企业发展高级副总裁Jim Kennedy

Jim Kennedy提到,人工智能是辅助人类新闻的一个强大工具,而不是取代人类的工具。话虽如此,但也不得不承认,人工智能和自动化十分有可能对我们的商业模式和整个新闻行业产生深远的影响。“事实上,从我的经历中可以看到,影响已经发生:人工智能可以报道更多新闻而无需增加人类工作量,并且增加我们为用户提供的真实价值。”

他认为,在一个全球互联的世界里,新闻周期永不止息。毫无疑问,我们需要我们所能获得的一切帮助。而人工智能技术有望让我们以更低成本报道更多新闻。

以下为Jim Kennedy演讲实录,内容经编辑略有删减:

大家好,我是吉姆·肯尼迪。我是美联社的战略和企业发展副总裁。美联社是一家全球新闻机构,在世界250多个地方设有分社,报道的新闻涵盖各种媒体格式,有图文、音频和视频等。在此,我首先感谢中国人工智能学会的邀请,让我有机会在这里与大家交流,分享我对人工智能和自动化在新闻领域的广泛使用。很遗憾,这一次我无法在现场与大家面对面交流。我之前来过中国多次,给我留下许多美好回忆。我希望不久的将来可以再次来到中国与大家见面。不过,今天,我们只能线上交流沟通了。我为今天的演讲准备了一份简单的PPT,和大家分享人工智能如何用短短的数年时间在新闻行业扎根和发展。

2013年,美联社的一名同事邀请我参加一场会议,讨论自动化文本新闻创作的可能性。当时,我对此不是很有兴趣。我过去见识过这些技术的“创作水平”,感觉非常一般。我之前看到的那些机器创作的新闻故事读起来非常不自然,而且内容也很无聊。所以,我不是这方面的爱好者。但是我的同事说服了我,他说如今技术已经有了很大的进步,应该重新去了解一下。那天,我们去了一家创业公司,这家创业公司以报道体育新闻为主。他们将棒球和橄榄球的结构化数据集变成叙述性文字,为体育迷带来有趣的故事。公司的首席营销官给我递上一份他们的新闻报道打印稿,内容和美国职业棒球大联盟的一个球队有关。并且,这篇报道完完全全是计算机撰写的。当时我很惊讶,准确来说,是非常震惊。专业新闻报道该有的要素它都有,报道还对比赛做了详尽的回顾,选手的介绍也恰到好处,甚至报道的语气语调也十分贴近该球队球迷的喜好。从那一刻起,我意识到,机器一定会走进我们的新闻编辑室。

我们完全没有理由去阻止它们或惧怕它们。当时我们没有意识到——但后来才慢慢明白的一件事是——我们才刚刚踏上人工智能阶梯的第一个台阶。日后,我们会使用自然语言生成,这是一种算法,通过将结构化数据集转换为模板化的叙述性文本报道,从而创作出成千上万的体育类、商业类等各种技术报道。于是,我们马上在体育领域展开试验,为每一个全国橄榄球联盟里的运动员、为每一场比赛撰写独立报道。

想象一下,2013年赛季,我们要为每一场比赛、每一个运动员撰写报道。这意味着每周我们需要撰写350多篇独立报道。我将其称之为一次“严峻的考验”,这是我们在美国用来描述绝对结论性实验的一种表达方式。因为我们从来没有要求任何人类记者去完成这样一项繁重的任务。这项任务,哪怕是一个部队,也需要花上几小时才有可能完成,涉及大量人力劳动,繁琐又费力。但是我们发现,我们的自然语言生成程序仅花了数分钟就完成了任务。这个试验让我们相信,这项技术必将大有作为。所以,接下来,我们把目光投向另一个更加庞大且复杂的任务。

自动撰写美国上市公司的季度收益报道。在美联社,传统的季度收益报道仅关注前300家上市公司的每季度财报。但是通过将数据输入到文本自然语言生成程序里,我们可以将输出的报道数量提高10倍,几乎覆盖股市里所有的上市公司——大概超过4000家上市公司。正如你在幻灯片里看到的,这个过程涉及到创建每家公司季度收益的结构化数据文件,然后将这些数据文件输入到自然语言生成程序,生成计算机撰写的叙述性报道,当然报道的模板还是由美联社的记者设计。

其中的奥秘就是我们利用所谓的“分支协作”设计的模板。报道的方向取决于财报结果是低于市场预期还是高于市场预期。

现在,大约六年后的今天,我们继续一年四次,大量撰写这些季度收益报道,为我们的读者提供最高水平的商业新闻。他们可以有充分的把握,不会漏掉任何一家公司的季度收益报道,每一家公司的信息都对读者十分重要。

2014年的公司季度财报项目在整个新闻界轰动一时。而在美联社内部,我们成功地证明计算机程序可以用来生成文本内容。这样一来,我们的记者就可以去做更重要的工作,记者们如释重负。他们再也不用对着财报拼命撰写看似写不完的新闻报道。他们可以把更多精力放在更加重要的新闻故事上,然后借助自动化的力量确保每一家公司都不落下。当然我们的每一个读者也都非常满意。对新闻供应商来说,我们报道的新闻数量非常重要。为新闻读者提供更多选择,满足他们的多样化需求也非常重要。当然,每个人都期待重大新闻报道,但每个人也都想看到契合他们个人喜好的新闻故事。

这就是公司季度财报项目可以大获成功的原因。它意味着,哪怕是市场上最小的公司,我们也会给予报道,而不是只关心巨头企业,如苹果、谷歌和亚马逊等。同时,新闻机构凭借其新闻报道的品质而与众不同。因此,如果说自动化的直接结果是数量,那么同样重要的副产品就是质量,因为人类记者可以把更多精力放在发现和报道更有价值的新闻故事上。如果没有机器分担这份重复性的常规任务,我们的记者可能永远没有那么多时间去发掘有价值的新闻。

我可以非常自豪地告诉各位,人工智能技术在新闻工作中的应用,最初想法是将数据自动转化为文本,随着科技的发展,如今人工智能的应用已经扩展并覆盖到新闻工作的整个流程,包括从新闻收集到新闻编撰再到新闻发布。到目前为止,受益最多的当属新闻编撰。一切的起点当然也在新闻编撰这一阶段。我们先是尝试了文本自动化。但是我们美联社在过去数年中,也向着新闻的整个工作流程中的另外两个节点发展。

比如新闻收集,即实实在在的收集信息(还没有形成文本、音频和图片的那一类信息)。人工智能在新闻收集领域的一个主要发展方向是:第一时间发现潜在的具有新闻价值的事件。在如今的数字时代,可用的信息来源无比丰富,从手机抓拍的用户生成内容到全球社交网络上数百万条基于文本的帖子,这些都可以作为信息来源。我们有大量的丰富而富有启发的即时可用的原始信息,它们被人工智能吸收消化再输入应用。这就涉及人工智能阶梯或自然语言阶梯上的第二个台阶。比如,现在,记者可以使用程序即时分析全球社交媒体平台上的帖子。热点新闻一旦发生,像什么爆炸、地震、新冠疫情等,可以马上进行追踪。我们甚至还使用数据科学,基于过去的趋势,来预测新闻有多大价值。新闻编辑室也使用检测和验证工具来区分事实信息和假新闻。有些工具还可以快速识别出我们所说的深度假新闻,包括不法分子用来欺骗大众的假照片、假视频和假音频。

现在我们还可以使用人工智能技术鉴别和筛选哪些社交网络上的帖子是不法分子和计算机机器人程序发布的,哪些是真实人物发布的。这些创新技术让新闻机构有能力甄别信息、快速决策并迅速有效地部署人力资源、现场报道全球重大新闻。

新闻收集领域的第二个主要发展方向涉及分析大量数据和文档。我们有各种不同的工具组合来梳理大量的结构化数据和非结构化文本。这些工具可以让记者们快速从成堆的素材中发现关键信息。如果没有这些工具的话,要做到这些可能需要花几周乃至几个月的时间。再利用其他一些工具,比如自动数据可视化工具,你可以马上看到数据以数据驱动的图形展现在眼前,直观地讲述故事,从而增强可以通过文本传达的内容。

在这个过程中,美联社从公司季度报道开始,逐步用自动数据技术性地报道各种类型的新闻,从体育回顾到选举结果等等。对于基于数据的新闻项目,全国各地的统计数据可以为我们当地的报纸和广播听众制作成千上百个本地化独立新闻报道。

同时,更广泛的新闻行业也已经在使用自然语言生成来进一步捕捉所谓的超本地新闻,他们使用一系列可用的公共数据,比如公司开业和倒闭、犯罪和安全、房地产交易、甚至待办事项和周围可以去的地方。这些项目几乎不涉及人工,但他们可以成倍地丰富当地新闻报道的数量。

新闻行业对人工智能和自动化的应用早已不止这些相对简单的任务。

人工智能应用可以做的其他高级的事情包括总结和改编技术报道,在录音的同时实时转录音频,识别和描述视频中的动作以便人类编辑进行快速编辑,将摄影棚内的摄像机移动到适当的位置,管理舞台上(体育赛场上)的多个摄像头角度,以及根据技术故事直接自动生成音频和视频。

正如我们踏上的第一个台阶——自动化企业季度财报报道,人工智能阶梯上的后面几个台阶可以极大地提高生产过程中的效率,释放最宝贵的人力资源,即我们的记者和编辑,他们现在可以把重点放在提高新闻报道的质量上。

人工智能和新闻相结合的最后一个领域是新闻发布,不仅是及时发布新闻,还有面向合适的人群发布新闻,在适当的时候满足用户的特殊需求。

在这方面的一个最大突破是个性化定制。必须要承认的是,全球电商巨头们早已在这方面领先我们新闻机构太多。但是,智能推荐引擎在新闻业务中的用途,却一点也不比销售其他商品和服务来得少。在数字出版业务中,搭配适当的商业模式(如广告投放、订阅或一次性内容付费等),它可以帮助新闻媒体了解读者的个人喜好,以便向他们提供最想要或最需要了解的内容。

美联社正打算提供一个类似的平台访问服务,这样我们的用户——使用美联社内容的用户,可以产出他们自己的新闻内容,可以准确地找到他们需要的内容,或者一旦内容可用时,自动将美联社内容用于新闻撰写。

值得注意的是,从业务角度来看,这让所谓的“向上销售”成为可能,或者说购买你需要的东西,而这些东西在以前没签合同时是无法购买的。这对所有新闻制作者而言,也是长期促进收入增加的一个关键因素。

其他可以实现更快更好的内容发布的技术包括使用各种图像识别应用程序来快速分类照片和视频,并给这些数字文件添加描述性元数据,以便更轻松地对其进行分类和搜索。通过让用户发现更多相关内容,这也可以增加收入。

我们对此有一个说法,它描述了我们需要克服的销售障碍。我们说,要是他们找不到这个内容,他们也就没办法购买这个内容。但是有了智能内容后,即带有描述性元数据的内容,这个问题基本上可以得到解决。

最后,在该领域,我们最近又将注意力转向使用人工智能技术来为各种机器驱动的案例准备新闻素材。即把新闻本身作为数据给机器使用,而非展示给读者。各行各业的专业人员近来发现,他们可以从历史新闻档案中提取有用的信息。这涉及挖掘大量非结构化新闻,以探索可能重复发生的模式和历史趋势,从而在科学、金融等其他领域解锁重大突破。

当我们顺着人工智能的阶梯一步步向上攀爬的时候,新闻供应商尤其需要坚守从一开始就用来规范这些技术使用的原则和政策。我们对新闻业有严格的标准,这些标准不应被忽视。哪怕在价值链上,这些技术也提供了捷径。

事实上,美联社已经拓展了我们的卓越标准,其中包括“正确使用人工智能的特定检查列表”,它可以应用到任何一个新的案例中。检查项有:底层数据的准确性如何?我们是否有权使用这些数据?数据或处理数据的算法中是否存在固有偏见?我们是否充分披露了技术使用的方式和其他等等。我们在每种情况下都会自己这一系列问题。最终,我们的人类记者一如既往地重要,甚至更加重要。
正因为如此,我们的记者需要接受适当的培训,以掌握和完善使用这些技术和日常管理这些技术所需的技能。

所有这些都要求新闻编辑室采取新的监管和管理。在美联社,我们成立了一个人工智能工作小组,由新闻、业务和技术部门的主要领导者组成。这个工作小组的任务是管理我们在发现、测试和应用过程中采取的每一项人工智能技术。

我在此能够给出一个十分肯定的预测:人工智能在新闻行业的应用只会越来越多,并且发展速度比过去几年更快。不到十年前,这个趋势刚刚浮现的时候,我们并不知道当记者们看到机器加入新闻编辑室成为他们工作的伙伴时,他们会作何感想。但出乎意料的是,当时的一些顾虑并没有持续发酵扩大。因为机器的使用从来不是为了淘汰人类记者。