CCF-GAIR 2020圆满落幕，联邦学习分场精彩汇聚！|ccf|李超|算法|联邦

2020 年 8 月 7 日，全球人工智能和机器人峰会（CCF-GAIR 2020）正式开幕。CCF-GAIR 2020 峰会由中国计算机学会（CCF）主办，香港中文大学（深圳）、雷锋网联合承办，鹏城实验室、深圳市人工智能与机器人研究院协办。

作为中国国内最具影响力和前瞻性的前沿科技活动，CCF-GAIR 大会已经度过了四次精彩而又辉煌的历程。CCF-GAIR 2020 延续了过去的强大阵容，提供了 15 个专场（人工智能前沿专场、机器人前沿专场、智能驾驶专场、AIoT 专场、AI 芯片专场、视觉智能·城市物联专场、AI 源创专场、AI+ 艺术专场、企业服务专场、工业互联网专场、AI 金融专场、医疗科技专场、智慧城市专场、联邦学习与大数据隐私专场、前沿语音技术专场）。

值得一提的是，刚刚结束的联邦学习与大数据专场，各路专家和业内专业人士都纷纷回答了对联邦学习的理解和期许。

联邦学习与大数据隐私专场：

从“城邦”真正走向现代“联邦”

在当今的人工智能热潮中，数据扮演着让人工智能运转起来的“石油”的角色。能否获得大量的高质量数据，也成为了在人工智能研究和应用落地中最关键的因素之一，数据共享、融合的需求越来越强烈。

联邦学习正是作为解决数据共享和融合的一种解决方案应运而生。联邦学习使用局部数据收集和最小化原则，能降低传统中心化机器学习方法带来的很多系统性隐私风险和成本，作为一种新兴的人工智能基础技术，联邦学习自从2016年被提出以来，在学术界和工业界受到了越来越多的重视，尽管如此，联邦学习在应用方面依然面临着很大的挑战。

这些挑战，不仅来源于联邦学习技术本身的进步，如去中心化中的算法问题；但更重要的，是如何建立起一个各方参与者共赢的生态系统，逐步实现实现从安全合规到联合扩展，继而达到提升赋能，激励用户参与，互利共赢的新阶段。

令人可喜的是，中国研究者们已经在上述领域取得了卓有成效的成果，甚至可以说走在国际联邦学习的技术研究、标准制定以及应用落地实践的前头。今年4月8日，微众银行人工智能部联合电子商务与电子支付国家工程实验室（中国银联）、鹏城实验室、平安科技、腾讯研究院、中国信通院云大所、招商金融科技等多家企业和机构发布的《联邦学习白皮书 V 2.0》，为业界展示了联邦学习从“理论”到“实践”的关键转变，并宣告了联邦学习2.0时代的到来。如果说联邦学习的1.0时代，联邦学习的的参与者们好比古希腊的城邦，在相同的制度下虽有联系，但更多的是长期分立，各自为政，那么随着对联邦学习的讨论逐步落地，联邦学习在标准、制度、激励措施逐步完善后，也进入了类似现代联邦的2.0时代。

在联邦学习与大数据专场上还颁发了若干奖项，分别是：2020联邦学习开拓奖（微众银行）、2020联邦学习创新奖（京东数科）、2020联邦学习先锋奖（第四范式）、2020联邦学习应用奖（腾讯安全）、2020联邦学习研究奖（创新工场）、2020联邦学习新锐奖（逻辑汇）、2020联邦学习探索奖（同盾科技）。

在简单颁奖仪式后，获奖的各位专家也从联邦学习的研究重点、联邦学习框架、分布式机器学习范式等技术领域到在信贷、风险管理中的应用、以及生态系统构建、经济激励机制等话题进行了最硬核的分享。

嘉宾观点荟萃

下面也将为大家简要回顾一下这一分场上各位嘉宾的主要观点。

微众银行首席人工智能官杨强：应对对抗攻击、结合AutoML，是联邦学习接下来的研究重点

第一位演讲的微众银行首席人工智能官、香港科技大学计算机科学与工程系杨强教授发表了题为《联邦学习下的数据价值与模型安全》的演讲。杨强是国际联邦学习与前一学习的领军人物，也是国际人工智能联合会（IJCAI）成立五十多年来的首位华人理事会主席。

演讲一开始，杨强教授就介绍了这一主题的背景：

我们知道监管以及对数据隐私的要求，在全世界范围内形成了一股潮流，不管是从政府还是从民间，大家对数据隐私的安全保护是非常在意的。这一方面是受限于监管和数据安全的限制，另一方面是他们不愿意让自己的核心资产被别人拿到，因为数据可以体现很多价值，一旦他们的数据被别人掌握，他们的核心价值就折旧了，就好像我们买一辆车，一出4S店的门，马上这辆车的价值就减半了，这种状态使得大家裹足不前。

杨强表示，联邦学习正是从这个角度出发，通过“数据不动模型动”和“数据可用不可见”的方式解决了模型建模的数据需求并保证了数据的安全。对此，杨强用“小羊吃草”的例子来形容数据和模型的关系，用羊代表模型，草代表数据。传统的做法是把草运到羊的位置，而联邦学习则是领着这只羊访问不同草所在的地方，这样草就不用出本地，羊还是可以长大。

接下来，杨强教授进一步介绍了联邦学习的关键技术以及在推荐系统、金融界、保险公司横向联邦学习的拖杆应用案例，并进一步介绍了最新开展的联邦学习和迁移学习的结合研究以及接下来的重点研究方向。他表示，我们建立的 AI 离不开人，保护人的隐私是当下AI 发展中特别重要的一点，这也是从政府到个人、企业以及社会的要求；另外，AI也要保护模型的安全，防止恶意或非恶意的攻击；最后，AI 需要人类伙伴的理解，如何实现联邦学习系统的透明性和可解释性，也是研究者接下来需要重点研究的方向。

京东数科薄列峰：快速的联邦学习的框架

在杨强教授之后演讲的是由远程接入的京东数科AI实验室首席科学家薄列峰。薄列峰同时还担任华盛顿大学计算机科学与工程学院合聘教授，研究范围覆盖机器学习，深度学习，计算机视觉，自然语言处理，语音等多个领域。

薄列峰在演讲中提到联邦学习和区块链可能存在的越来越多融合的趋势：一个是数据管控的严格化，现在数据控责任明确，刑罚甚至要到自然人。另外就是数据监督更加全面化，覆盖的领域越来越多，在这样的大背景下就急需一些创新的工具，能够满足数据监管的需求，同时也能让我们使用大数据。

薄列峰进一步指出，传统的纵向联邦学习由于需要传递梯度信息，容易导致基于梯度信息的构造攻击；另外，传统的纵向联邦学习需要对数据或者梯度加密，虽然增加了安全性，但是也极大损失了算法的效率；再者，传统的纵向联邦学习基于同步更新，虽然保证算法收敛，但是浪费了大量的计算资源。

而快速的联邦学习的框架的三个特点能有效的克服传统的纵向联邦学习的不足：1、数据和模型隐私，不同的参与方之间没有直接交换本地数据和模型参数，而是交换更新参数所需的中间数值；2、树状通讯结构，使用基于树结构的通讯框架，使得信息传输更加高效；3、异步计算框架，模型构的特点，以及隐私保护方式的特点使得结构可以进行异步计算，从而极大地提高了模型的效率。

第四范式涂威威: 通往自动多方机器学习，降低联邦学习门槛

接下来的演讲嘉宾、第四范式副总裁、主任科学家涂威威也同样从系统架构的角度进行了分享。涂威威是第四范式先知平台大规模分布式机器学习框架 GDBT 的设计者，带领团队将 AutoML 及迁移学习应用到工业界并取得显著的效果提升。

涂威威提到：要从人的专家系统切换到机器学习系统，关键的一点是机器有非常强的复杂性，可以建立非常复杂的、远超人的复杂性模型，这一切都需要有足够数据来进行支撑。要做一个高效率的分布式自动机器学习架构，需要高效率做自动化分布式特征生成与选择计算，需要更高效的凸优化、非凸优化、无梯度优化算法参与搜索，也需要高效率的机器/联邦学习算法、高效率的神经网络结构搜索算法；还需要做高性能差分隐私算法、高性能的安全计算基础底层、高性能的同态加密架构或者高性能的安全架构和技术安全通讯。

涂威威最后总结到，机器学习落地成功的关键因素，需要足够的复杂度，因此支撑它就需要更多的数据，以及需要高水平人才。在解决数据问题上需要保护隐私，联邦迁移学习是非常好的解决方案，但联邦学习的技术比较复杂，所以我们需要降低联邦学习规模化使用的人才门槛，所以第四范式目前正在做自动的多方机器学习，相关的研究在今年8月24日KDD 2020 AutoML Workshop上将会进一步探讨，欢迎大家关注。

创新工场冯霁：下一代分布式机器学习范式

在涂威威之后进行演讲的是创新工场南京人工智能研究院执行院长，倍漾科技CEO冯霁。冯霁与涂威威博士均师从南京大学人工智能学院院长、计算机系系主任周志华教授，是同门师兄弟。

冯霁先从分布式计算的角度来对联邦学习的进化进行了分析和阐述，并分享了创新工场在联邦学习方面的近期研究。他认为，联邦学习是很重要的新型分布式人工智能协同合作平台，未来潜在的研究方向包括：

1）模型安全方面的对抗攻防：比如数据下毒等等。

2）数据隐私的保护机制：比如说除了设计同态加密和多方安全计算之外的隐私保护机制，要对本地的数据进行更强或者是更好的保护。

3）在联邦学习框架下设计能够适应非独立同分布的更好的算法：联邦集成学习是解决的方向之一。

4）设计新型的网络拓扑架构：比如说一个更加高效的去中心化的联邦学习架构。

5）联邦学习的经济学机制：激励更多的参与方加入到合作中的机制。

腾讯安全李超：联邦学习实现无接触信贷的自适应风险管理

来自腾讯安全的李超博士则是在大会上做了题为《联邦学习实现无接触信贷的自适应风险管理》的演讲。李超博士表示，在联邦学习领域，腾讯安全更多算是一个应用方，在实践上还是有比较多的落地，对联邦学习的价值也有比较多的切身体会。在演讲中，李超博士主要就联邦学习在具体金融安全业务上的知识，并针对信贷业务深入地回答了“我们为什么要把数据放在一起”的问题。

以一部获得奥斯卡提名的纪录片《国宝银行：小到可以进监狱》中的情节为例子，李超博士明确点出了传统金融业务效率低、风险高、迭代难、扩张慢的四个痛点，并对传统线下业务与无接触信贷的线上业务进行了比较。李超表示，联邦学习出现之后，真正把CARTA模型的大圈连了起来，通过联邦学习的方式，银行可以及时跟互联网机构进行分布式联合建模，更新整个的模型，这时候模型就不再是通用模型了，是专门针对银行和最近市场情况提供的定制化模型，所以应该把这种叫做信贷风控的大循环模式。从腾讯安全实验的结果来看，联邦学习的建模针对集中式的联合建模的KS几乎没有任何的性能损失。同时，联邦学习相比于通用分会有非常好的提升，在落地的十多家客户里都有30%-40%的KS提升。整个风控的通过率从20%也提升到了30%。

同盾科技李宏宇:同盾智邦-知识联邦平台，打造数据安全的人工智能生态系统

接下来出场的嘉宾是同盾科技人工智能研究院深度学习首席专家李宏宇博士。李宏宇提到，近几年联邦学习得到重视，它本身就是在大的环境下，数据隐私产生了各种问题，政策不断地在强调数据隐私的规范性，并倒逼着我们的技术开始要适应政策的一些新的变化，并带出了同盾在联邦学习方向上提出的一个新概念——知识联邦。

知识联邦作为一个新的概念，它背后代表着知识共创可共享。具体而言，通过知识的共创和共享，从而实现数据的可用不可见。具体而言，知识联邦包含了两层意思，一层是知识，一层是联邦。其中，知识不仅包含了模型、算法，也包括了一些逻辑规则或者是模式。同时，知识也不是单纯通过训练学习出来的，它还包括经验知识、先验知识、常识和行业领域知识。

另外，知识联邦不是一个单纯的技术方法，它是一套框架体系。这个框架体系可以根据联邦发生的阶段，划分为四个层次：信息层、模型层、认知层、知识层。其中，知识层不是单纯的某一种因素，它包含了安全多方应用、安全多方计算，再到安全多方学习，甚至包括数据的共享，以及联邦推理、联邦预测等一系列的综合体。在最后李宏宇还介绍了同盾的知识联邦平台同盾智邦所提供的相关服务：

智邦平台解决几个问题，第一个是提供数据安全交换的协议。一种方式是开源，另外一种方式就是你要非常清楚知道数据交换过程中发生了什么事情。第二个是解决了多方参与的时候数据的问题。第三个问题是一站式产品闭环的问题。从特征选择、特征预处理、数据预处理，到算法管理、安全保护，以及最后的模型发布，这一系列产品流程的闭环，这是我们在智邦平台里能提供的。

逻辑汇创始人丛明舒：联邦学习商业化过程的经济激励机制设计