深度赋智NeurIPS-AutoDL系列竞赛世界冠军方案首次公开！ | TPAMI|tpami|中国计算机学会|算法|论文

编辑 | 陈大鑫

导读：「深度赋智」斩获了NeurIPS-AutoDL 2019系列竞赛总决赛世界冠军，在图像/音频/视频/文本/表格不同场景的十个数据集上稳定获得八项第一和均分第一。为共同推动AutoDL技术的快速发展，冠军方案的技术细节于近日首次公开，最新相关论文已被人工智能顶刊IEEE TPAMI接收。

TPAMI筛选极其严格，每年录用量仅200篇左右(当前影响因子17.861，在中国计算机学会认定的人工智能领域四个A类期刊中排名第一)。

致力于用AI制作AI，「深度赋智」在AutoDL领域不断探索前沿科技方向，取得了全新的研究进展。

近日，深度赋智联合厦门大学纪荣嵘教授团队首次公开AutoDL2019挑战赛冠军方案的研究细节，详细介绍了AutoDL竞赛中各模块组件(元学习器、数据注入器、模型选择、评估方法等)的设计与实现，以及竞赛中benchmark相关工作和AutoDL服务，并将竞赛中的完整代码进行开源。

项目地址：https://github.com/DeepWisdom/AutoDL

目前，研究成果《Winning Solutions and Post-challenge Analyses of the ChaLearn AutoDL Challenge 2019》已被人工智能顶级期刊TPAMI录用。

论文共同作者包括弗雷堡大学Frank Hutter、第四范式、联想集团、Paris-Saclay大学等学者及机构。AutoDL 2019-2020系列竞赛由国际人工智能顶级会议NeurIPS（神经信息处理系统大会）主办，是人工智能领域机器学习和计算神经科学的国际顶级赛事，历来备受瞩目。

近年来，深度学习技术在诸多领域获得了关键性突破。但是，多数深度学习模型的性能在很大程度上依赖于过量的模型设计策略。如果人类工程师想要让神经网络在特定的任务上取得理想的表现性能，就需要很好地选择和设计网络结构、学习过程、正则化方法及超参等。另外，随着任务的不同，工程师需要重复上述过程。

因此，是否可以设计一种AutoML算法，能够在大量任务上以一致的良好性能进行快速学习，从而减少对人类专业知识的过度依赖？

NeurIPS-AutoDL 2019系列竞赛的初衷则是希望解决上述问题。竞赛提供了一系列可重用的基准数据集，要求参赛选手设计开发无任何人工干预的自动深度学习系统，并使用该系统解决包括图像、视频、语音、文本和结构化表格数据等多领域的全自动多标签分类任务。

论文指出，在有限时间和计算资源的限定下，使用通用的神经网络搜索(Neural Architecture Search)是不切合实际的，系统需要设计更高级的模块化组织，包括元学习器、数据注入器、模型选择器、评估方法等。这些高度模块化的组件对于元学习、集成学习和有效数据管理十分重要。

「深度赋智」实现了一个基于平均排名、多任务执行和随时学习矩阵的AutoDL系统(系统架构参考下图)，提供了将用户数据自动封装为系统输入的端到端开源工具包，以便用户快速使用AutoDL服务。

其次，论文总结了Top5参赛队伍的模型选择方案。我们从下表中看到，几乎所有方案都对5个领域使用了不同的方法。对于计算机视觉中图像和视频这两个领域，冠军方案主要采用了诸如ResNet及其变体等流行的主干网络，同时引入预训练模型和数据增强技术。对于语音域和文本域，采用了不同的特征提取技术，使用领域知识（如MFCC、STFT、截断）进行特征提取。对于表格域，将更经典的机器学习算法与智能数据加载策略相结合。

同时，作者认为元学习、数据加载和数据增强是显著提升模型性能的三大关键技术。

元学习(Meta-learning)：元学习包括迁移学习、训练前模型和超参数设置和选择。元学习对模型训练和预测的最终精度和速度都至关重要。
数据加载(Data Loading)：数据加载是加速训练过程以获得更高ALC分数的关键因素。系统从三个方面改进了数据加载。首先，加速将数据解码为Numpy格式，同时对文本和表格数据进行批处理以加快转换速度。第二，对不同层次数据和特征管理采用缓存机制；第三，以渐进的方式提取视频帧。
数据增强（Data Augmentation）：将快速自动增强、时间增强和ThinResNet34模型的分段配置分别作为图像、视频和语音数据的数据增强技术。

为了论证三大关键技术的有效性，作者做了消融实验进行对比，结果如下图所示。我们可以看到，元学习可以被认为是「深度赋智」解决方案中最重要的一个组成部分。分别移除数据加载和数据增强技术，也会使得模型性能降低。

基于该AutoDL框架，「深度赋智」于2020年4月获得国际自动机器学习领域的顶级赛事NeurIPS-AutoDL系列竞赛总决赛世界冠军，在多领域测试集上取得了优异的性能表现，证明了该框架在不同场景的普适性。

总结

AutoDL的研究面临诸多挑战，例如时间和计算资源的限制、最优配置的搜索、网络结构的设计等等。尽管构建一个完全自动化的解决方案非常复杂，我们还是希望能够向一个相当统一的模块化体系结构靠拢。本文的消融研究表明，未来AutoDL在元学习和集成学习方面还可以进一步改进和优化。

目前,「深度赋智」已将该研究成果应用于其自研的天机自动机器学习平台，已为零售/鞋服、工业、交易平台、金融等行业的多个头部客户提供了相应服务。客户数据表明，整套解决方案可大幅提高决策、推荐、搜索等任务的效果，并提升40%~60%的商业指标，为客户实现超过60%的人力成本节约和显著的净利率提升。

「深度赋智」与其合作学术团队已经在PAMI/NeurlPS/KDD/ACL/CVPR/ICCV/AAAI等顶会顶刊上发表了数百篇论文，拥有丰富的学术积累。

对于天机产品的潜力与价值，深度赋智创始人兼CEO吴承霖认为：

“以零售行业为例，零售行业近几年经过多轮的转化与升级，但成本管理难、销售额增长瓶颈、供应链效率低等多个痛点依然存在。「深度赋智」能全自动部署至线下多个零售触点，实现更低成本更高效率。”

未来，「深度赋智」将继续探索前沿科技方向，助力AI技术在各个细分行业的落地，让AI创造更多的社会价值。

TPAMI介绍

IEEE Transactions on Pattern Analysis and Machine Intelligence（IEEE TPAMI）是人工智能领域最顶级国际期刊，该期刊影响因子在人工智能领域的期刊中常年位居榜首，高达17.861，在中国计算机学会（CCF）期刊会议推荐列表中为A类。在人工智能领域会议论文日益增多的今天，TPAMI仍维持每年仅200篇左右的录用量(在中国计算机学会认定的人工智能领域四个A类期刊中排名第一)。