“深度学习与统计学理论”研讨会成功举办|人工智能|神经网络|统计学

作为新一轮科技革命和产业变革的核心驱动力，“智能化”已成为未来产业的发展趋势。作为近年来人工智能发展最迅猛的领域之一，深度学习通过分层网络获取分层次的特征信息，除了在图像、语音等领域里获得了比较成功的应用之外，也为统计学理论的研究创新打开了新的契口。2020年11月19日上午，由北京大学光华管理学院商务统计与经济计量系主办的“深度学习与统计学理论”研讨会在北大光华成功举办。来自国内知名院校的四位优秀统计学者应邀就各自最新的理论成果进行了分享与探讨，为线上、线下共同参与的逾500位高校师生与业界人士带来了一场绝佳的思想学术盛宴。

线上直播

开幕式

主持人王汉生

北京大学光华管理学院

商务统计与经济计量系教授、系主任

会议在北京大学光华管理学院商务统计与经济计量系系主任王汉生教授的主持下宣布开幕，马化祥书记代表学院致辞。他热情地欢迎了线下与线上的师生学者们参与本次研讨，表明在人工智能的飞速发展下，深度学习作为处理非结构化数据的一种手段，走向大规模产业化应用已成为从政策导向到行业共识的一致方向。为此，建立深度学习平台助力产业应用，加速支持产业智能化，也已经成为当前学术界和各行业最炙手可热的研究应用方向，期待大家能够从研讨中彼此进益，有所收获。

致辞嘉宾马化祥

北京大学光华管理学院党委书记

主旨报告

“三元素“阐释机器学习的本质

报告题目：Prediction, Computation, and Representation—The Nature of Machine Learning

报告人：张志华，北京大学数学科学学院

张志华教授在报告中对机器学习与统计学的影响与差异进行了简要概述，他首先回顾了两位著名统计学家Leo Breiman 与Bradley Efron分别在各自论文“Statistical Modeling: The Two Cultures”与“Prediction, Estimation, and Attribution”中对统计学和机器学习之间建模差异的相关讨论，申明了机器学习的发展给统计学带来的深刻影响。受“深度学习”与“统计学”这两种建模文化差异讨论的启发，张教授提出了阐述机器学习的三要素：Prediction, Computation与Representation。以Prediction为最终目的，将Computation作为问题求解的途径，从“Representation”角度来诠释机器学习。张教授表明，在Computation方面，机器学习主要关注分类，聚类等离散问题；除了如何基于训练集进行优化求解外，机器学习还关注如何提高在测试集上的泛化性能，以实现优化算法和泛化理论的有机统一。而Representation包括物理建模和特征提取，它的发展贯穿着如何解决“Dimensionality Curse”和利用“Dimensionality Blessing”，深度学习则完美诠释了这两者之间的权衡。张志华教授表示，它也是迄今为止把“Data Modeling Culture”和“Algorithmic Modeling Culture”融为一体的最佳技术途径。

深度森林“打开了”

非参深度学习的“大门”

报告题目：非参数深度学习理论初探

报告人：高尉，南京大学人工智能学院

高尉教授的课题组近年来致力于非参深度学习的研究，其基本构建是非参数化、不可微分的随机森林模型，而非参深度学习在诸多任务中取得了与深度学习相当的效果，特别对离散型学习任务往往表现出更好的效果。高教授的报告围绕他和他的课题组在非参深度学习方面取得的理论初步进展，着重介绍了收敛界的研究，并解释了其如何在理论上指导非参深度模型的构建。高教授以“Deep Forests”为切入点，将目前的深度学习视作多层传统神经网络构成。通过分析其层数过深而造成的训练困难的问题，高教授表示可利用连续可微的激活函数（Relu），采用BP算法进行训练。与传统机器学习方法相比，深度学习不需要人工设计输入（如图像），而是通过算法自动学习。基于此，高教授指出，现在的深层深度学习效果的优秀表现主要源于3个原因：1）逐层的数据处理；2）特征的内部变换。3）足够强的模型复杂度。但同时基于神经网络的深度学习也存在三个问题：1）容易过拟合。2）很难训练。3）计算开销大。不论实际应用还是学术研究的层面，都期望得出研究非神经网络的深度学习方法，由此而提出了“Deep Forests”的概念。“Deep Forests”利用了“Random Forest”，能够实现逐层处理，得到新的特征。在实际的套现案例中，其模型的表现优于逻辑回归和DNN。为了进一步证明它的优越性，高教授给出了Deep Forest的特殊情形，并针对于满足特定条件的模型，给出不同变体下的forests的一致性证明和收敛速度证明，对深度学习的建模方式提供了很好的指导方向。

“三力”齐发——

探究深度学习的理论性质

报告题目：Deep learning: from theory to algorithm

报告人：王立威，北京大学信息科学技术学院

王立威教授在报告中重点介绍了其团队近期在深度学习理论方面的研究成果及其对算法设计的指导。他认为主要可以从三个方面研究深度学习的理论性质：模型的表示能力、在测试集上的泛化能力以及在训练集上的优化性质。对于深度神经网络表示能力的研究，王教授及其团队证明了在网络宽度严格大于输入维度以及深度可以无限增加的条件下，深度神经网络是一个Universal Approximator，能以任意精度逼近一个可测函数。而对于深度学习的泛化能力的研究，王教授表示，虽然深度神经网络是一个过参数化的模型，但仍然表现出很强的泛化能力，因此经典的统计学习理论可能不再适用。王教授分别从模型复杂度和训练算法的角度诠释了深度学习的泛化性能，并给出了在使用SGLD算法的条件下，深度学习的泛化误差上界。最后，对于深度学习的优化算法的研究，王教授证明了在深度网络充分宽以及其参数初始化的机制是被精心设计的条件下，从随机初始点出发，利用（随机）梯度下降法可以以很大的概率找到全局最优点，并且能达到指数收敛。基于此理论结果，王教授与其团队设计了二阶优化算法——Gram-Gauss-Newton算法，用以训练深度神经网络。该算法具有二阶收敛速度，并且每次迭代的计算复杂度与SGD相仿。

解析AI浪潮的幕后引擎

——深度卷积神经网络

报告题目：Progressive Principle Component Analysis for Compressing Deep Convolutional Neural Networks

报告人：周静，中国人民大学统计学院

周静教授则以研究动机引入，简析了作为深度学习经典网络的卷积神经网络随着层数加深，卷积的size减小，但个数迅速增加，从而导致权重矩阵w的维度极高的问题；同时面对Computation和Storage的困难，也难以直接部署在移动端。基于此，周教授提出了一种渐进主成分分析(PPCA)方法对卷积进行降维来压缩深度卷积神经网络。具体而言，从一个预先指定的层开始，逐步移动到最后的输出层。对于每个目标层，PPCA将每一次的卷积层reshape成一个矩阵后，选择累计方差贡献率最高的几个，进行PCA降维，这将显著减少当前层中的内核数量。降维后，当前层的shape发生改变，影响了下一个卷积层，要先对下一层的shape进行修正后再进行PCA降维，由于当前层中使用的内核数量决定了下一层的通道数量，用于下一层的通道也大大减少，整个模型结构可以被大幅压缩，参数的数量和推理成本都可以大幅降低。周教授将其称之为“Progressive Principle Component Analysis”。周教授的研究中在一些经典的CNNs (AlexNet, VGGNet, ResNet和MobileNet)和基准数据集上评估了该方法的有效性。实验表明，在某些特定模型里，PPCA的模型压缩率大、预测速度快，并且精度没有太大损失。但PPCA无法做到在所有的模型中都超过其他的竞争对手。最后周教授指出，目前PPCA没有考虑如何选取最优的调节参数，因此还有进一步的研究空间。

以信息技术为代表的第四次工业革命正推动着我们走入人工智能时代，伴随全球第五次产业转移，大数据正在朝着生产要素的形态演进，深度学习是近年来随着人工智能兴起而出镜率最高的名词之一，与统计学的结合与碰撞势必会擦出新的火花。本次研讨会对统计学科与深度学习的结合研究与发展起到了积极作用，同时也增进了相关领域专家学者们之间的交流与探讨，为发展统计数据科学创新建立了良好的平台，与会师生与学者都表示获益匪浅。

2020.11.19

北京大学光华管理学院

商务统计与经济计量系

北京大学光华管理学院商务统计与经济计量系传承北京大学明辨善思、海纳百川的笃学精神，秉持光华管理学院“创造管理知识，培养商界领袖，推动社会进步”的历史使命，以“光华思想力”为锚，聚焦一系列商务统计领域重大课题展开研究探讨，致力于推动人工智能与统计学理论的交流与发展。值学院成立35周年之际，集光华学者之智慧，建深度交流之平台，通过分享讨论学术研究成果，助力学术发展，推动社会进步。