破题篇 VIII：“复现”“智能”一相逢|人工智能|信息论|博弈论|墨子|纳什

作者 | 周熠

上海脑科学与类脑研究中心

张江实验室脑与智能科技研究院

金风玉露一相逢，便胜却人间无数。

——秦观《鹊桥仙》

将“复现”作用于“智能”之上，也就是说，将不同的流派应用于不同的子领域，产生了人工智能众多重要的技术和工作。

除了符号、连接、行为和统计流派之外，人工智能也受其它学科的影响形成了百家齐放的局面。

X学科和人工智能交叉，形成了X流派。

仿生流派

仿生流派受各式各样的生物学现象和原理启发，应用于人工智能之上。严格意义上，连接流派也是仿生流派的一种，因为人工神经网络受生物神经元所启发。但由于连接流派过于重要，因此把它单独列了出来。除此之外，仿生流派还包括遗传算法、仿生视觉、人工生命等等。

遗传算法（Genetic Algorithm）：仿生流派应用于机器学习领域。

在进化生物学中，我们认为种群的进化往往是朝着一个好的方向发展的。物竞天择，适者生存。新一代种群往往比旧一代更优秀。而在进化生物学中，实现这个的手段包括基于DNA的遗传、突变、自然选择和杂交等等。

这些思想可以应用到机器学习中，特别是优化问题上面。首先，我们需要把优化问题转化成一个种群进化问题。在这里，优化问题的解的集合就是一个种群，开始的时候，这个种群可以是比较随机的。在每次种群演化的过程中，我们给予一些导向，以至于每一次演化，这个种群都会朝最优解/较优解的方向演变。长此以往，经过多轮演化之后，所得到的种群就可能包含我们所需要的最优解/较优解。

遗传算法

为了达到这个目的，首先，我们需要对优化问题进行编码，每一个可能的解称之为个体，往往表示成一个变量序列，如000000或111111，叫做染色体。其次，我们需要初始化一个种群，可以通过随机或者某种预处理的方法产生。第三步最重要，有了初始种群之后，我们需要演化出一个下一代的种群并持续迭代。下一代的种群理论上需要优于上一代。为了评价是否优劣，我们需要对每个个体进行评价，这通常通过一个适应度函数来计算。在适应度函数下，我们可以把种群的个体按照适应度高低排序。有了这个铺垫，我们就可以产生下一代种群了，其主要通过选择和繁殖。选择是指选择出两个个体（父亲和母亲）出来，这往往基于适应度。适应度越高，被选择的几率就越大。被选择的两个个体可以“交配”得到新的个体。如000000和111111交配，我们从中间断开并互换，可以得到两个新的个体，即111000和000111，其中前者的前三位来自于111111，后三位来自于000000，而后者正好相反。这样我们就得到了下一代的两个候选个体。而新得到的个体可以发生突变，如111000可能最后一位发生突变，从而变成111001。这也是得到新个体的一种方法。这样，通过选择和繁殖（包括交配和突变），在适应度函数的控制下，就可以迭代得到一个新的种群。而这个新的种群往往优于旧的（可以把不优秀的通过“自然选择”淘汰掉）。持续这种迭代，我们就有希望能够找到优化问题的最优解/较优解。

博弈流派/经济流派

计算经济学（Computational Economics）：经济学，特别是博弈论，在多智能体系统中的应用。

《美丽心灵》这部电影，讲述了天才却又神经质的传奇数学家纳什（Nash）的故事。纳什是博弈论的代表性人物，提出了纳什均衡（Nash equilibrium）的概念，也因此而获得了诺贝尔经济学奖。

下面是一个纳什均衡的著名例子——囚徒困境。假设有两个小偷被抓住了，他们可以选择“坦白”或者“撒谎”。如果两个都坦白的话，按照坦白从宽的原则，他们都可以获得-8的收益；如果两个都撒谎的话，就可以骗过警察，从而都获得-1的收益；但如果一个坦白而另一个撒谎的话，撒谎的人就会得到重罚，得到-10的收益，而坦白的人无罪释放，收益为0。乍一看上，好像两位小偷应该选择撒谎，这样他们的收益总和才能最大化。但纳什均衡告诉我们，并不是这样的。假设两位小偷彼此没有互相通气，也都是维护自己的利益的理性选择者的话，那么他们会想，万一另外一个人选择了坦白，那我的收益不就从-1变成-10了么？因此，撒谎不是合适的选择，两个人都撒谎不是纳什均衡态。在一个纳什均衡态中，对于每一个智能体，无论其它智能体选择怎么改变，该智能体的收益都不会降低。因此，一人撒谎一人坦白也不是均衡态。在囚徒困境中，只有两个小偷/囚徒都坦白才是纳什均衡态。

囚徒困境的纳什均衡

纳什均衡天生就是考虑多个智能体之间的博弈，是经济学最重要的数学基础之一。因此，它和多智能体决策息息相关。所以，应用在多智能体系统中是一个自然而然的事情。

除了均衡之外，经济学和博弈论中的谈判（Bargaining）和机制设计（Mechanism design）等等，也广泛应用在多智能体系统之中。

社会学流派

与经济学和博弈论类似，社会学也是研究群体的社会行为。因此，也自然而然地和多智能体系统息息相关。其中的社交网络（Social network）和社会选择（Social choice）等等，在人工智能中的多智能体系统领域大放异彩。

社会选择理论（Social Choice Theory）：社会学在多智能体系统中的一个应用。

在一个多智能体系统中，往往需要群体来一起做一些重要的决策，如选举。但选举远没有想象的那么简单。假设我们有三个投票人甲、乙、丙和三位被选举人A、B、C。他们的投票结果分别如下：

甲：A>B>C

乙：B>C>A

丙：C>A>B

其中，>表示优先级顺序。这种情况下，由于甲乙都认为B好于C，根据少数服从多数原则，整个社会也应认为B好于C。同理，每一对偏好都有两个支持者。所以，以上的投票就无法选出最后的优胜者。这就是著名的孔多塞投票悖论。

事实上，社会选择远远没有那么容易。例如，2000年美国大选，戈尔领先小布什50多万选票，最终却输掉了选举。这是因为美国的总统选举制度而导致。最终统计的不是所有选民“选票”总和而是选举州“选举人票”总和。每个州，按照人口，拥有不同的数量的选举人票。如果一个候选人获得了该州的大多数选民选票，那么他就获得这个州的全部选举人票。因此，就会出现这种戈尔选票多但选举人票少的奇怪现象，从而落选总统。

也许有人会抨击美国选举制度不合理。但是，阿罗在投票悖论的基础上，理论上证明了关于投票的非常违反直觉的不可能性定理。不存在同时满足无限制原则、独立性原则、一致性原则和非独裁原则的投票系统。简而言之，不存在绝对合理的社会选择系统。

信息论流派

算法信息论（Algorithmic Information Theory）：信息论在知识表示以及机器学习中的应用。

信息论是关于信息的理论，由我们前面提到的香农创立，主要研究信息的编码、传输、转换等等。而算法信息论主要关心字符串里面包含的信息该如何度量，以及如何从已有的字符串/信息中预测新的字符/信息。

《大话西游》中的唐僧，说得很多都是废话，其中包含的信息量很少。这事实上能启发我们思考算法信息论中的一个根本问题：给定要传递的信息，最少需要多少字符才能将其完整地表达出来？达特茅斯会议的参与者之一所罗门诺夫（Solomonoff）和苏联大数学家柯尔莫哥洛夫（Kolmogorov）深入研究了这个问题，并且给出了严格的数学刻画。

作者介绍

周熠，现任张江实验室脑与智能科技研究院/上海脑科学与类脑研究中心认知智能研究组课题组长，研究员，中国科学技术大学兼职教授。研究方向为认知人工智能，主要的研究兴趣为如何受脑启发，深度融合基于逻辑的符号流派和基于神经网络的连接流派，及其在认知人工智能领域中的应用，包括AI+教育、自动智商测试、智能语言处理等。

由于微信公众号试行乱序推送，您可能不再能准时收到墨子沙龙的推送。为了不与小墨失散，请将“墨子沙龙”设为星标账号，以及常点文末右下角的“在看”。

墨子沙龙是以中国先贤“墨子”命名的大型公益性科普论坛，由中国科学技术大学上海研究院主办，中国科大新创校友基金会、中国科学技术大学教育基金会、浦东新区科学技术协会、中国科学技术协会及浦东新区科技和经济委员会等协办。

墨子是我国古代著名的思想家、科学家，其思想和成就是我国早期科学萌芽的体现，“墨子沙龙”的建立，旨在传承、发扬科学传统，建设崇尚科学的社会氛围，提升公民科学素养，倡导、弘扬科学精神。科普对象为热爱科学、有探索精神和好奇心的普通公众，我们希望能让具有中学及以上学力的公众了解、欣赏到当下全球最尖端的科学进展、科学思想。

关于“墨子沙龙”