香港科技大学（广州）熊辉教授：人工智能算法中的不易、简易和变易 | GAIR 2021 - 实用资讯 - 青少年人工智能资源与创新平台 - 互联网教育智能技术及应用国家工程实验室

12月

香港科技大学（广州）熊辉教授：人工智能算法中的不易、简易和变易 | GAIR 2021

5879 0

12月9日，第六届全球人工智能与机器人大会（GAIR 2021）在深圳正式开幕，140余位产学领袖、30位Fellow聚首，从AI技术、产品、行业、人文、组织等维度切入，以理性分析与感性洞察为轴，共同攀登人工智能与数字化的浪潮之巅。

大会次日，香港科技大学（广州）教授，IEEE/AAAS Fellow熊辉教授发表了题为《人工智能算法中的人性和社会性》的演讲，从算法的人文及社会意义层面进行了探讨。熊教授结合《易经》中的“不易”、“简易”以及“变易”思想对算法在促进人类社会发展、创新中的作用进行了解读。

熊辉教授

在此次演讲中，熊教授向与会者分享了一些关于算法中人性和社会性的个人想法，阐述了算法的基本原理、性质与我们熟知的课堂知识、日常经验和中国文化之间的联系。

例如，对于GAN算法中的判别器，熊辉教授是这样解释的：

“就好比有个非常好的老师指导学生学习的内容和学习的方向。”

再如对不同聚类方法特点的形象描述：

“分层级的聚类就像资本主义的市场经济，它在早期和中期会产生一些问题，这些问题还会逐渐累积；K-means是社会主义，兼顾公平但在一些问题上不符合现实。有没有办法把两种方法的优点融合起来呢？这就是我们的‘中国特色社会主义’。”

以及用易经中乾卦的爻辞解释来讲算法的“中庸之道”：

“九五是飞龙在天，古代帝王说自己是九五之尊，因为九五卦是至高点，九六就是亢龙有悔。（我们做算法做到）飞龙在天就完美了，再往上就是Overfitting（过拟合），往下就是Underfitting（欠拟合）。”

熊辉教授的讲解生动易懂，娓娓道来，赢得在座掌声不断。

熊辉教授现为香港科学技术大学（广州）讲席教授，人工智能学域主任；曾在学术休假期间担任百度研究院副院长并主管5个实验室。

熊教授获得的部分荣誉包括AAAS Fellow、IEEE Fellow、ACM杰出科学家、中国教育部长江讲座教授、中国国家基金委-海外及港澳学者合作研究基金、哈佛商业评论2018年“拉姆·查兰管理实践奖”-全场大奖、ICDM-2011最佳研究论文奖、和AAAI-2021最佳论文奖。

以下是演讲全文，AI科技评论做了不改变原意的整理：

1 GAN与师生

今天演讲的主题是《人工智能算法中的人性和社会性》。此前一年，我一直在美国。这期间，我将人工智能的很多经典算法进行了审视与回顾，以人性和社会性的角度反思了这些算法与人类的关系，感慨良多，于是整理成报告与大家分享。

感谢我之前指导过的17位学生（有一位今年毕业，照片没放PPT上），他们现在大多都在学术界从事研究工作。前三位都已获得终身教授的荣誉，也有一些学生在工业界，还有些在创业。

首先，作为引子我先介绍GAN算法。

我们知道，对抗生成学习方法可以产生很多虚拟数据，比如人脸。此外，GAN还在其他场景中发挥作用，比如"时光机"，当我们给出一个人18岁的照片，GAN算法可以预测这个人年老时的样子。

在百度期间，我们进行了一些有趣的工作，例如，走失儿童的问题前些年较为严重，近年已大幅减少，因为天眼系统日趋成熟。但天眼系统还未普遍应用的时候，走失儿童的找回是个大问题。当儿童走失且若干年没有回家，其样貌会随年龄发生改变。

我们的系统可以根据孩子童年的照片，生成如今的样子，然后将当前生成的样貌进入公安系统数据库中比对查找。锁定一些范围的人群后，再进行DNA的测试比对，从而找到走失儿童。这种应用十分有效，并且具有人性和社会意义。

这种算法和人性甚至社会性有何关联？我想先介绍两个概念。

我们在进行监督学习时，有两种思路，一种是Discriminative，即差异性的、差分式的方法。还有一种是Generative，即生成式的。下面我们举例来理解这两种方法的差异所在。

假设一个场景中有两个外国人，如何判断他们是否在使用韩语？

按照Discriminative的思路，我们可以找一些韩剧，观察演员的发音和语气。当我们大概知道韩语的发音模式时，再去听这两位外国人的对话，便可以判别他们是否使用韩语。虽然我们不知道谈话内容，但可以快速判别口语种类。

还有一种是生成式的方法，在同样的场景中，为了判别两位交流者所使用的语言是否为韩语，我们可以报班学习，学会后就可以判断这两位外国人说的是否为韩语，此外还可以对谈话内容加以理解。

这两种方法各有利弊，前者更为快速，后者则需要我们付出时间和精力进行系统的学习。那么，是否有一种学习方式融合两者的优势呢？生成式学习便是这样的方法，这也是其最显著的优势之一。

但这和我们的人生有何关系？

站在个人的层面，我们也需要一个很好的判别器。不同的人有不同的经历和选择，有些人成功有些人失败，主要在于他们使用的判别器。这个辨别器告诉个体在什么时候应该进行怎样的生成式学习。

也就是说，我们需要一个良好的导师。好的导师能让我们走在光明大道上；不好的导师则放任我们自由生成，甚至走在错误的生成式学习道路上。

人生在世，就像进行一次漫长的生成式学习。如果我们有一个好的生成式判别器，这个判别器可以是导师、偶像、家长、甚至是我们追逐的对手。因此，对抗学习融合了生成式和判别式学习的优点，它总是在寻找一个极佳的判别器，让我们走在正确的轨道上，让我们的资源用在正确的方向上。算法之所以有用，很大程度上是因为它从生活中来，抽象了我们的经验和哲理。

2 AI与易经

当我站在一个比较系统的宏观角度来观察所有的算法时，我用易经的理论对它们进行了梳理，将它们分成三个主要类别：不易、简易和变易。这里，我们所说的"易"是指变化。

“简易”，就是我们常说的大道至简，可以帮助我们洞悉事物的本质。事物的本质就是“不易”，是万事万物中恒定不变的东西。

比如，我曾在百度做过一项开发，帮助我拿到了哈佛评论的奖励。在这个智能化专业系统中，我涉足的是人力资源领域。其实学习人力资源并不困难，它只是一个行业知识基础，任何行业都有其"不易"的东西。

但如果我们的方法不对，学习可能会很难。我们需要把握住人力资源中恒定不变的那些"根本性知识树"。比如对企业、对团队、对个人的管理。如何把握这些根本性的东西，就是我们学习的难点。

我们的算法都可以从这些角度出发对问题进行审视。比如，对于监督式学习，如果想训练一个苹果香蕉的分类器，这之所以在技术上是可行的，主要是因为苹果和香蕉分别有着它们特有的、恒定不变的根本属性。

如果香蕉整天变化，算法就没法对其进行预测和识别。我们的算法主要是捕获这些不变的"根本"。只有捕获到这些，才能实现目标任务。

比如，我曾在百度进行员工的离职分析。一些HR问我这个事情是否具有可预测性？我说肯定可以，因为它有不变的根本——当我们准备离职时，心就不在公司了，工作状态就会发生变化。工作状态改变时，一定会在数据上表现出来。如果能抓住这个根本，就能预测离职。

很多人都觉得CNN不具备可解释性。但是从更高层级来说，黑盒一样的CNN也有其不变的根本。

例如手写字母的识别，对于一个X，我们可能根据心情、疲劳和习惯把X写成各种姿态，但机器判断的时候，其实都可以发现一些共性的东西，比如图中的红色和黄色小块，就算手法、字迹不同，它们也会恒定出现。这些就是Kernel（核心），即不变的根本。

CNN的任务就是去捕获这些Kernel，一旦捕获住，不论字体写成什么样，有这些Kernel在，CNN都可以将其识别。

这就是通过"简易"寻找不变特性的过程。这个例子中，卷积计算就是"简易"，目的是捕获"不易"。但由于随机性，一些Kernel的表现并不完美，因此就要进行一些模糊化的Pooling操作。Max Pooling也是一种"简易"，目的是让“不易”凸显出来，让Kernel更显眼。

所以，传统的CNN-Pooling组合背后的原理就是通过"简易"寻找"不易"的过程。机器学习另一个常用的工具是集成学习，它的意义是什么呢？

举例来说，一位VIP病人想知道自己是否罹患某种疾病，这时医院会召集多位临床专家共同探讨病情，并通过投票给出最终诊断结果。在很多机器学习竞赛时，我们都会用集成学习来提升算法效果。这其实就是民主投票，让多数人认可的结果作为最终输出。

这样的民主投票好处很明显。比如我有25个基分类器，每个分类器的误差都是0.35，那么集成学习能将误差降至0.06。

但集成学习也是有前提的。想让集成学习的投票成立，每个基础分类器都必须独立。即每个人的决策都必须不受他人影响。

第二个前提是，每个基分类器都要足够聪明。每个人对事物的认识起码要优于随机猜测，这就是投票机制的民主基础。所以一人一票并不一定是好的机制，不谈前提的投票，就是耍流氓。

这两个前提的必要性可以从数学上证明。

因此，从社会学的角度，投票之前要先看人口结构。如果人口结构太差，那投票就相当于让一堆随机猜测甚至低于随机猜测的基分类器投票，其结果会更糟。只有在"足够聪明"的人群中进行投票才是有意义的。

如何判断人群是否足够聪明呢？可以看人群中是否有足够数量的中产阶级，且每个人都要有独立的思考能力和选择投票的权利。

所以，算法和社会的运转形态一样。

有时我会感慨，和懂算法的人沟通十分顺畅，因为可以类比。只要我们认可算法的证明过程，将其应用于社会与人生，就无需赘言。

上面我们介绍了“不易”，接下来说“简易”。

“简易”包含很多东西，比如注意力机制（Attention）、聚类（Clustering）、规则化（Regularization）等等。它们都是“简易”的过程，目的是让我们聚焦到事物的本质——“不易”。

近年，我们一直在说大数据，但不意味着数据越多越好。大数据带来最好的提升是让其"不易"的本质更容易被捕获。但如何捕获这些本质呢？

比如，聚类是最简单的“简易”方法之一，将相似的东西组合在一起，再转化成一些优化问题，让类间的差异最大化，类内的误差最小化。这可以帮助我们进行知识的总结，而总结有助于我们理解。举一个简单的例子：

公司有5000万个客户，老板让我们分析这5000万个用户处于怎样的生态。我们通过聚类分析，可以将他们分类：第一类对钱不在乎。他们可能会买两张同个运营商的卡，还都买了无限流量的套餐，而且就摆着不用。这样的用户在公司眼中是最好的，因为他们付了最贵的代价，却占用最少的资源。

还有一类是需要公司赔钱的用户。他们会最大限度利用套餐中的服务，100分钟的通话肯定用到99.99为止。这样的用户会给公司的运维造成较大的负担。

进行了这样的聚类后，就能对用户归类并分别管理。这个例子的目的是说“简易”的意义。简易有两种方法，一个是分层次的，一个是Partitional聚类。分层的方法主要是产生分层的聚类理解。

它的好处是不用预先设定聚类结果的数量，而且有利于自然形态最终态的形成。这很像原始资本主义的市场经济，让企业自由竞争，互相吞并，不强加干涉，这就是一个自然的状态和结果。

它的缺点是什么呢？由于缺乏全局的指导（损失函数），它在早期和中期会产生一些问题，这些问题还会逐渐累积。这就是分层次的聚类方法的问题。

相对应的，我们一看K-means，就觉得像最初的社会主义形态。在这里我们首先需要一个中央全权负责周围的统治，并且规定好最终的簇数量，然后再按最优函数进行分配。

但其问题在于什么？比如我们国家，汉族人口占到90%以上，但我们却说有56个民族，在使用K-means进行民族划分时，就会有很多汉族人被分成壮族、苗族、维吾尔族人等等，这就不符合现实。

因此，分层级的聚类和K-means的方法各有利弊，能否将其融合起来呢？

这就是我们的“中国特色社会主义”，既能兼顾市场经济的灵活性，又能融合社会主义的大局领导力。

在算法中，为了克服不同数据的规模和密度差异，我们会首先将目标数量定高，然后发挥K-means的公平性特点，保证每个小类中的对象聚于一堂，这就是"兼顾公平的市场经济"。

每个小类再使用分层次的方法进行市场竞争，让它们自由融合吞并，最终大类和小类会呈现更好的、更自然的分布。

除了中国，北欧也将资本主义进行了改良。他们的改良资本主义也是将分层级和K-means的思路进行兼容。总的来说，社会和科学相辅相成、相互借鉴和促进交叉。

但话说回来，“简易”必然带来信息的缺失。信息丢失可能带来一些问题，比如“简易”后，原本三维的信息映射到二维空间，我们看到二维信息时很可能会"浮想翩翩"。因为它的信息本不完整，比如图中的男女，我们看这张图总觉得他们之间有点什么问题，但当恢复成三维的样子，却发现他们毫无瓜葛。

这提示我们不要在“简易”时丢掉了“不易”。最后讲“变易”，这里面的代表性算法是强化学习。

我们都听说过内卷，这里有两个概念，一个是Exploitation，中文就是内卷。为什么有内卷？是因为我们每个人都想活在自己的舒适区，不愿破圈。当很多人都不愿破圈，就形成了内卷。

为了避免内卷，我们要做Exploration，就是去破圈。比如，在给学生寻找研究方向时，我说推荐系统领域已经有内卷的趋势了，我们突破一下，去做人力资源的人才推荐。因此，同样是做推荐算法，研发传统推荐的人和我们没有竞争，人力资源的研究人员也跟我们没有关系，这就找到了新的天地，避免了内卷。

当我们开辟了一个新领域时，就像挖了一个坑，很多人也想涌进来分一杯羹。但不怕，我们继续开辟新领域即可。

因此为了避免内卷，我们要在Exploration和Exploitation之间找到有机的平衡。这个平衡是什么呢？就是强化学习算法。

强化学习算法首先有两个本体，一个是Agent，另一个是环境。Agent能感知环境的状态，之后可以采取一些动作，比如砍树。当树砍光，环境变差，就会通过Reward来惩罚Agent。如此一来，人类就知道树砍多了环境就变差了。因此，不仅不要砍树，还要去植树，从而形成一个循环。人类不断感知环境并采取行动，这就是强化学习算法。

强化学习的优点在于，它能在错误中学习，不断试错迭代，在内卷和探索之间取得很好的平衡。

算法其实很美，人类一直在艺术和科学之间进行拔河。例如，微积分。如果我们想估计一条曲线下的面积，微积分会进行近似。但不论多精确，都会有差异。那么这个差异就可以用艺术弥补。这也是不同机器学习炼丹师效率的差异核心所在。有的人可能上手一天就能完成任务，有的人可能三个月也束手无措。

其根本原因在于"艺术感"上的差异，后者缺乏一点"感觉"，即那种看山是山，看山不是山的inside-out的经验和大局观的艺术感。只有当我们了解了算法中的人性和社会性，才能发挥算法的艺术性。

此外，做算法一定要有"中庸之道"。机器学习需要在偏差（Bias）和方差（Variance）之间取得平衡。前者会导致过拟合，后者则欠拟合。

那么，机器学习的"中庸之道"是什么意思？我们不论使用早停、L1/L2损失都是为了达到Bias和Variance之间的最优点。这就像易经的"乾卦"，它分为前卦后卦、内卦外卦。

我们知道初九叫做潜龙勿用，意思是我们在学习时不要朝三暮四，就安心学习。学完之后，我们可以初出茅庐，显龙在田，小试牛刀，就像很多老师努力获得“优秀青年”称号。之后有人可能开始得瑟，这时就会进入九三。我们应该做到终日潜潜，也就是小心谨慎，避免枪打出头鸟。

有的人可能一辈子都在下卦，上不到上卦。此时一部分人能够从九三跨越到九四。九四再往上就是飞龙在天。很多古代帝王说自己是九五之尊，因为九五卦是至高点，九六就是亢龙有悔，比如袁世凯，他非要称帝，就物极必反，遗臭万年。

所以，“飞龙在天”就到完美了，再往上一步，就过拟合了，再往下可能就处于欠拟合的状态。因此，如果想真正做好算法的应用，一定要把领域知识和专业知识结合，明白什么是“不易”。领域知识能告诉我们“不易”是什么、在哪里，然后做到艺术和哲学的有机平衡。

来源: AI科技评论

标签：人工智能