本文为未来论坛AI伦理与治理系列02期——《AI的公平性》实录稿。未来论坛成立于2015年,是由科学家、企业家、投资人群体共同发起创立的科学公益组织。AI伦理与治理系列旨在促进社会对人工智能伦理的关注和思考,联动学术界、科技企业以及相关专家学者,共同分析和定义科技伦理和治理挑战,为人工智能技术伦理和治理模式提供前瞻性的思考和对策,促进行业及学术界为解决相关问题付诸于行动。

导语 / Introduction

有人说人工智能如同一面镜子,反映着人类社会中已存的文化偏见。如果人类想让快速发展的AI具备道德性,使得AI的应用具备公平性,也许人类需要的不仅是纯技术层面的探骊得珠,而还需致力于自身“内部算法”的修正改进。本期活动,即意在从对技术的讨论出发,从社会、哲学、经济以及法学的角度,探讨“AI公平性”这一议题,为“内部算法”的改进与“外部公平”的促进提出建设性意见。

 

主题报告

 

@段小琴

 

1. 研发者本身主观上并无意造成偏见,但往往有一些偏见是无意识产生的,从而导致将偏见引入AI系统的开发和设计中。

2. 我们需要在国际的AI治理参与上需要做出更多的努力,积极参与AI伦理治理相关政策论坛、标准组织和产业联盟,同时向国际合作平台贡献我们的AI实践和案例。

3. AI是一个复杂系统,其部件和服务可以是由多个市场参与者共同来提供的,因此,整个AI的治理是一个需要全产业共建共担、各司其职的多层治理模式。

4. AI治理和技术发展是相辅相成的,我们认为要加强基础理论的研究和突破,提升AI安全可信可解释性,利用AI技术来支撑AI治理,使得在技术在创新发展和规范约束之间找到一个很好的平衡。

 

哈佛大学法学院的伯克曼互联网与社会研究中心针对全球36个主流原则(包括一些主流国家和一些产业组织AI治理原则),研究了所有原则之间的共性理解和差异之处,其中对“公平性和非歧视”的共性内容提取与解读如下(如图1):

 

- 图1 -

 

89%的原则认为在培训数据、技术设计和选择、技术部署中要预防歧视性的影响,做到非歧视和预防偏见;36%的原则认为在AI的运用过程中要考虑使用代表性和高质量的数据,保障数据的准确性、一致性及有效性;56%的原则提及AI的公平性,分为两个维度:其一,要追求实质性的公平,包括人工智能的发展要确保公平正义,避免对特殊的人群或个人造成偏见和歧视,避免科技对处于不利的人造成更不利的地位。其二,在程序性公平层面,欧盟人工智能高级别专家组(AI HLEG)提到,针对人工智能作出的一些决策,要确保有能够提出异议或者有效补救的程序措施;就平等性角度而言,平等是超越了非歧视,它意味着每个人都应该适用同样的规则、获得信息数据支持,带来社会福利增值的公平分配;42%的原则中提到了要考虑影响中的包容性,公正分配人工智能所带来的社会福祉,普惠于社会全体,不论是弱势群体、还是普通群体,都能够享受到人工智能带来的益处;47%的原则中提到了要具备设计中的包容性,这是对技术团队和技术公司的要求,人工智能设计团队应具备多样性,比如包容性的社会论坛的参与,以此确保设计是无偏见的。

 

提到偏见,更多的研究表示很多偏见是在研发过程中无意识造成的。很多时候,研发者本身主观上并无意造成偏见,但往往有一些偏见是无意识产生的,比如“捷径偏见”、“公正性偏见”及“自利偏见”等不同类别的偏见。这都会导致他们在开发和设计AI系统时,将偏见引入系统中。(如图2)

 

- 图2 -

 

下面简单分享一下不同国家和地区在AI治理监管领域的进展与最新动态

 

欧洲方面,欧洲长期致力于AI治理,很早就明确了AI治理的战略,欧盟在2020年提出《人工智能白皮书》,提出人工智能“可信生态系统”,提出对高风险AI系统强制性监管要求,并对非高风险系统采取自愿标签认证机制。2021年4月21日,欧盟发布了《关于人工智能的统一规则(人工智能法)》的提案,区分“禁止类AI”和“高风险类AI”,并要求各欧盟成员国需参考本法案制定适用于本国的条例。一旦违反此法规,可被处以前一财政年度全球年营业额的2%~6%的罚款。同时,CEN/CENELEC JTC21将于2021年6月1日召开开工会,AI标准正式进入议程。

 

以下是欧盟《人工智能白皮书》以及人工智能法草案中涉及的具体内容。所谓“高风险”的定义,存在两个可能的场景:一是人工智能应用领域可能发生重大风险,比如医疗保健、运输、能源和部分公共部门;二是人工智能使用的方式可能面临重大风险,如对个人或公司的权利产生法律上或类似的重大影响。而欧盟《人工智能白皮书》认为,这两个场景的交集可以判定为高风险的情况。对高风险AI应用,欧盟将采用事先评估及事后执法结合的方案,责任应由最有能力应对任何潜在风险的行为者承担。

 

同时,欧盟在2021年4月《人工智能条例(草案)》中列出高风险人工智能清单,需要我们关注的是:自然人的生物特征识别,涉及隐私信息的对自然人“实时”和“事后”远程生物识别;关键基础设施的管理和运营:基本公共基础设施网络的安全组成部分,如道路交通管理、水、煤气、供暖和电力供应;教育和职业培训,就业、工人管理和自营职业的机会,以及享受基本的私人服务和公共服务和福利等;还有执法、司法和民主进程中涉及的人工智能问题。从这些分类来看,欧盟在对诸多与人有关的人工智能系统的应用上,态度非常谨慎,体现了欧盟以人为本的价值观。为了避免对人造成歧视的伤害,有的系统需要事先在公平性等原则上得到充分的测试才能进入到市场中。

 

德国来看,德国制定了AI标准路线图,提出五级风险的“AI应用评估金字塔”。路线图基于AI风险分为五个层级,最上面一层属于禁止类的自主系统,对监管来说是要求完全或部分禁止使用的。最下面一层是没有或仅有极小风险的应用,这部分应用没有特别的监管要求,中间的二级到四级有一定的监管要求,比如“信用的自动分配”“理赔”等这些同公平性相关的应用,有不同层次的监管要求,比如“信用的自动分配”,就需要通过事前批准、事前测试,才能允许进入市场,而“理赔”只需要形式上需要满足透明度义务、风险公布等基本要求。

 

日本和新加坡来看,更多聚焦行业自律及对企业的赋能,暂时不会出台人工智能的监管法规。日本鼓励采用无法律约束力的行业自律准则,并促进在企业内进行AI治理的部署。新加坡发布《AI治理示范框架》《组织实施和自我评估指南》《实施用例示范》《AI时代的工作设计指南》等一系列操作指引,帮助企业AI治理实践从原则走向实践落地。

 

- Martin David -

 

下面我简单分享一下我们对于人工智能治理、公平性原则上的考量和思考。

 

首先,我们需要在国际的AI治理参与上需要做出更多的努力,积极参与AI伦理治理相关政策论坛、标准组织和产业联盟,同时向国际合作平台贡献我们的AI实践和案例。

 

同时,从国内AI治理的角度看,我们认为要加强基础理论研究和突破,提升AI安全可信可解释性,并推动全产业共建共担AI治理,各司其职。

 

我们对AI治理相关的政策论坛、标准组织和产业联盟进行了梳理(如图3),图3右侧列出了欧盟层面与技术和标准相关的组织及产业联盟,特别值得关注的是ISO/IEC JCT1联合工作组,它下面的“SC42AI工作组”是讨论详细国际AI可信标准和AI用例应用,公平性原则和标准制定将在这个工作组内被进行详细讨论。图3左侧描述了国际层面的相关联合国组织,也包括一些产业组织,它们主要进行合作倡议和共识的倡导,我们认为在国际层面,可以更多地向国际合作平台去贡献AI的实践和案例。

 

- 图3 -

 

华为有一个“TECH4ALL”数字包容的倡议,其目标是“不让任何一个人在数字世界中掉队”。现在全球有75亿人口,有接近一半的人无法分享数字红利,华为通过技术、应用和技能三个方向的努力,在推动公平优质教育、保护脆弱环境、促进健康福祉、推进均衡发展方面做一些贡献,让每个人分享到数字经济的发展红利,不让任何一个人在数字世界中掉队。

 

下面通过几个简单的案例,介绍一下华为在贡献教育公平和质量提升上的实践。比如华为开发的“远程数字学校(DigiSchool)”,赋能塞内加尔教师远程教学,帮助学生从远程获得培训。再如“移动数字课堂(Digitruck)”,在肯尼亚的十多个乡村里,有很多学生由此获益。华为还开发了一些应用,比如“StorySign”帮助一些听障儿童阅读一些绘本或儿童读物,使他们有很多机会能够分享到一些好的世界读物。此外,华为的ICT学院为全球1500所高校提供ICT相关人才的培训,帮助当地人获得数字技能。

 

同时,华为也在积极贡献医疗健康服务包容和公平,帮助推动医疗健康服务的普及,比如和一些产业组织、机构进行合作的“Track AI”儿童视障的早期诊断,能够更方便地让儿童更快速地检测出视力疾病。,以及同一些远程医疗机构合作,支撑远程多学科的会诊,也是为更多人能够便捷地分享到数字经济的好处、人工智能的益处,也包括做一些“AI CT”的筛查,帮助医学获得一些突破。

 

AI治理和技术发展是相辅相成的,当前,AI基础理论可以有更多的投入和研究突破,帮助提升AI的安全和可信,如此AI系统才会得到更好的发展应用,这是一个正向循环。从学术界来看,AI的治理和伦理已经成为学术界的热点,论文增长非常迅速,我们国内张钹院士也提出了“第三代人工智能”,强调AI的安全、可信和可靠。DARPA提出的“第三波人工智能”,强调上下文理解和适应。对于这些新的AI理论和研究方向,对增强我们AI的公平性、可信是非常有帮助的,也希望学术界在这方面有更多的研究和突破。

 

不管是AI的公平还是无歧视等各种运用要求,都对AI全产业链有着治理的要求,我们看到AI的治理从算力层到算法层,再到数据层、应用层、解决方案的集成、部署者和运营者都是有很多不同层面的治理诉求的,甚至消费者和客户都有防止数据滥用和数据合法授权的技术诉求,所以整个AI的治理是全产业共建共担、各司其职的治理模式,这样才能把全产业的治理水平提高。我们也在积极提倡分层治理或多层治理的构架,通过多层治理,希望不同类别的企业能够分享自己的治理实践,同类别的企业就可以进行快速借鉴,找到最佳的实践,帮助整个AI全产业的治理能够更快地提升到更好的水平。

 

- Vincent Durbak -

 

@杨强

 

1. 公平性是变量,至少会受到时空因素的影响,我们没有形成全球性的公平性。人工智能的公平性,应该把焦点放在“人工”上。

2. 人工智能公平性的一个重要方向是数据的可获得性、数据的可使用性。我们希望数据“可用而不可见”,希望数据能够被确权。

 

AI今天的进步主要来自于几个主力方向,有算法、算法的设计、深度学习、强化学习等,另有巨大的算力、芯片架构的支持等。还有一个不可忽视的因素——大数据,否则AI就像一个没有汽油或者电池的车,是跑不动的。

 

借用抖音上的一句歌词:“人工智能其实是很单纯的,但复杂的其实是人”。所以,人工智能的公平性,应该把焦点放在“人工”上。这是一个复杂的问题,因为从数学上来讲,公平性是优化目标。不管是深度学习网络开发,还是强化学习的系统设计,首先要有一个优化目标。也就是说,专家学者对于要做什么事情要表达一个意愿,然后由人工智能的工程师,把人的意愿转化成一个数学公式,这个数学公式还有各种约束条件。不幸的是,目前并没有一个好的、自动学习的学习机器,可以作为我们自动学习、优化目标的工具。也许机器学习可以作为学习优化目标的一个工具,但某种意义上优化目标是不可能被学习的,因为优化目标的学习基础之上,还存在一个隐含的主宰者,以决定一个更高层的优化目标,而该主宰者的优化目标,还由另外一个主宰者定义。这个问题既是一个哲学问题,也是一个可计算的非常深奥的数学问题。

 

我们是否可以通过“机器学习的多任务型”(multi-objective;multi-constraint),以及机器学习的各种算法来解决这个问题呢?我觉得可以部分解决,从而尽可能地达到人类的水平。但还有一个不幸的消息:公平性是变量,就像我们在唐朝说公平性和现在说公平性,意义是完全不一样的。我们明天说公平性和今天说公平性也会不一样,因为社会在发展。另外,每一个地区、每一个地域也有不同公平性的定义,也就是说它和地域是相关的,所谓的“世界是平的”,但同时“世界不是平的”。换言之,世界存在严重的割据,每一个地方形成一个“联邦”,这个“联邦”自己有一个独特地域性的公平性,但并没有形成全球的公平性。

 

我们说人工智能很单纯,复杂的是人,“人”不是一个人,是一个群,族群也就形成了公平性的变量,这个变量是不可忽视的,并不能说一个族群就好过另一个族群,这是中国和西方争论的另一个焦点,这些都涉及到法律以及社会学。从个人的研究角度,我们讨论的焦点集中于数据集的可获得性,这是公平性的重要指标,以及算法收益分配的公平性,这与经济学密切相关

 

今天讨论的焦点是数据的可获得性和算法公平性。如果我们把这个焦点放到一个具体的目标上,就是我们能不能让数据可用而不可见。为什么会有这样的一个想法呢?因为我们希望数据能够被确权。比方说,用户带着手机经过一天的活动后,手机已经收集到一些数据,这些数据对用户个人来说可能完全没有意义,他希望能够放弃它们;但对一个手机公司来说非常有价值,因为它可以研究用户的兴趣,进而做一些判断。所以,这个数据的所有权归属于谁就很重要,为什么我们说“数据是谁的”这件事并不是加入一个区块链或其他简单方式能够解决的,原因在于,数据一旦出手,被复制、传输、运用之后,用户就对它完全失去了控制权。因为数据和石油有一个巨大的区别:石油是不可复制的,给你一桶石油,你不能把它变成两桶,而给你一份数据,你有办法把它变成两份数据。

另外,数据的隐私,我们的数据可能虽然没有任何物理性的能量,但它的隐私却是另外一个维度。而隐私的保护、隐私的公平性,为我们数据分析提供了一个新的数据约束。

 

我们希望数据的交易并不是数据的交易,而是数据价值的交易,这里需要提到“数据交易所”,说到它,可能大家一开始想到的是交易人带着光盘过去,一手交钱,一手交光盘,但这种交易却是失败的。我们现在看到的主流是数据价值交易、合作交易。

 

另外我要提出一个新的概念,就是要去抵抗数据的“马太效应”。我们知道小数据和大数据的重要区别,并不是量的大小,而是它们能够做的事情大小。大数据会产生大模型、大模型会产生更有效的服务,更有效的服务会吸引更多的人参加,更多的人参加会产生更多的数据,“马太效应”由此产生。所以,小数据会消失,大数据会产生垄断

 

我们有什么办法能够抵抗马太效应呢?当然从法律和政治层面来看,政府可以出台一个反垄断法。但是,如果从技术角度出发,有是否可能设计出一种新的技术模式,使得马太效应被成功地抵抗呢?因此,我们认为,反马太效应和反垄断技术方式就是一种“联邦生态”。

 

就“联邦学习”而言,现在数据分散于各地,属主分散,并且是异构的,能不能把它有效地聚合起来形成大数据呢?现在这个过程变得越来越困难,原因之一是法律的规制,比如欧盟的GDPR法规就表现得相对激进。研究发现,我国法律也是趋严的,相关法律越来越严格、适用越来越广泛。

 

- 图4 -

 

如图4所示,蓝色代表的是欧盟、美国数据监管法规的进展,绿色和红色代表的是中国的法规进程,我们可以看到从1995-2021年,法规越来越成熟、越来越全面、越来越多、越来越密集。这里面包括信息安全技术的个人信息安全规范、数据安全法的草案、个人信息保护法等,旨在保护用户隐私。这类法规的总体方向是隐私计算,隐私计算里又区分三个主流方向:其一是“联邦学习”的方向,联邦学习是专门为机器学习而产生的;其二是从70年代就开始发展的“安全多方计算”方向,从数学角度来说它非常严格,但它在应对动辄上万亿参数的大规模模型时,往往不能保证效率;其三是通过硬件来解决,这个方向现在国外占主流,像“安全屋”“GEE”这种环境,英特尔的开发较为先进,国内在这方面的芯片还有待提高。

 

隐私计算技术经过了三代的发展。2018年以前主要是安全多方计算,但从2018年开始,“联邦学习”(Federated Learning)就进入了大家的视野,如果有多方的数据源,大家应该怎样进行合作,建立不错的模型,最后进行利益分配。这就像我们刚才所说的数据价值分析。2019年我们开源了世界上第一个工业级的联邦学习框架,该框架受到欢迎,并在800多家高校和企业使用。以联邦学习技术为起点,我们建立了大数据生态,提供一个小微企业的信贷模型。

 

“联邦学习”的主要思想就是“数据可用不可见”,其做法就为:各方好比不同的草料厂,大家提供草料,但只是在自己厂区范围内提供草料,有以一只羊可以到各地去吃草,这就像大家在传递一些加密的参数,而我们希望这个羊获得成长。当然,我们也有不同的数学和架构模型,一种是按照样本来切割,更适合像我们以“一对多”,比如一个大企业大服务器面对众多边缘的终端,进行模型的更新。另一个是不同的机构之间的相互作用,即“to B”,机构之间也可以进行加密参数的沟通,使各自部分模型得以成长,最后合起来可以共同使用。

 

这个领域也存在一些交叉,比如如何做到安全合规,这和法律层面密切相关,再如如何做到防御攻击,因为我们不能假设每一个参与者都是好人,也许是半个好人,也许他是坏人、恶人,也许是一个半恶人、黑白人,如何能够防止这样的攻击,现在有很多这样的研究。

 

如何提高算法效力?安全多方计算,大家估算是比这种“明文计算”慢1万倍,联邦学习比明文计算慢100倍,通过软硬件架构的提高,现在已经可以缩小到50倍,后面这50倍还希望能有更多研究人员的参与,现在有很多初创公司在这个方向也获得了巨额的投资。

 

技术应用和联盟机制,所谓的“联盟机制”就是如何设计一个好的经济学模型,使得不同的数据拥有者(即“数据孤岛”)能够通过合理选择,加入收益最大的联盟,以获得其收益。我们可以看到,一个分配较为公平的联盟,它的规模就会增大;一个私心较重的联盟,它的规模就会缩小,所以一个市场机制就会由此形成。

 

- James Gilleard -

 

公平性的关键要点是开源(即让大家都获得这样起点的可能性),我们在2018年开始就开源了第一个联邦学习平台——微众开源平台“FATE”,并有众多的专利,“LINUX FOUNDATION”也把这个作为一个新型的开源软件,并在全世界范围内进行应用,这是一个非常大的社群,机构众多,我们所知道的重要公司都在里面。

 

假设两个机构有不同的联邦学习系统,他们是否可以形成一个更大范围的联邦学习系统?我们设想社会是一个层级型的形态,我们如何让异构联邦学习系统进行沟通?现在,富数科技和微众银行团队之间第一次实现了这个设想。微众银行AI团队和富数科技隐私计算团队异构联邦学习系统实现互联互通,打破以往单一平台的限制,意味着不同企业可以基于通用的标准实现数据交流,各方参与者可利用的数据池变大,进一步释放数据价值,加速行业数字化升级。联邦学习国际技术标准也于今年三月份由IEEE(电气和电子工程师协会)出台,这是世界上第一个联邦学习国际标准,能够促进不同的联邦学习系统之间的沟通。

 

我们和由徐扬生院士、李世鹏教授主持的深圳的AIRS学院合作了一个项目:在联邦学习中,一部分是计算机,另一部分是机器人,我们可以设想这个机器人是一个真人,以后这样的人和计算机联邦,他们可以让计算机逐渐学会人的偏好。这也是“能够让计算机学会像人一样”的第一步的尝试,尝试非常成功,希望大家关注以后的进步。

 

假设某个公司或者个人是联邦学习、机器学习的小白,现在自动化机器学习技术“Auto ML”,可以使一个机构自动成长。把这个模型设计好后,可以和联邦学习结合到一起,第四范式公司就是这方面的领先者。

 

下面举几个案例进行解释:第一个例子与银行之间、银行和互联网公司之间的合作有关,在这个范围内建立一个联邦,这个联邦可以有很多功能,比如反洗钱、信贷,再比如一家小微企业,因为规模太小,其纸面的历史也太薄弱,过去大型银行没有对它提供服务的可能性,其服务申请就可能不成功。而通过大数据的联邦识别其风险,如果认定它是一个资信良好并符合服务条件的公司,就可以对其进行信贷帮助,让它从破产死亡的边缘得以存活。这个设想在微众银行已经得到实现,我们在小微企业贷款中,应用联邦学习帮助上百万家小微企业在远程进行小额信贷。另外,集团公司和子公司之间可以有效地形成联邦,我们在越秀集团加以实现,使得每一个子公司、和其他子公司、和集团公司不用互传数据也可以沟通信息。

 

在微众银行的小微企业贷款事项中,我们从营销到客户服务、到风险管理、再到最后的财富管理,把整个流程和客户的企业生命从端到端进行联邦学习的大数据处理。就服务机器人而言,现在我们拥有几十个机器人,1个机器人相当于400个人工机器人服务,每天有300万个调用。我们各方面的技术(包括人脸、语音、对话系统)都在不断进化。这样服务小微企业本身就是公平性的一种体现,因为它帮助了社会的长尾能够提高。

 

此外,我们在医疗领域也开始投入应用。各个医疗机构都是一个数据中心,过去在医疗机构多中心的合作上往往是一筹莫展的,由于利益和隐私的缘故,医疗机构之间不能传递数据。现在,我们可以通过联邦学习将其连接起来,共同建模,这样可以实现“老旧药新用”,可以研发新药,这也是最近我们和同济大学刘琦教授在《Bioinformatics》杂志上发表的第一个联邦学习的实际应用,即用联邦学习进行新药物发现。

 

人工智能公平性的一个重要方向是数据的可获得性、数据的可使用性。我们研究联邦学习,一个更大的目标是实现“数据可用不可见”,其特征是:隐私保护、权益保障、缺陷保障以及确权,确权和权益保证需要通过经济学来完成

 

- Marly Gallardo -

 

@申卫星

 

1. 虽然公平很难定义但其却可以描述。我们需要考量如何通过制度建设来细化公平的类型,让公平的观念得到落实。

2. 法律既要解决形式上的公平、机会上的公平和程序上的公平,还要实现形式公平和实质公平的合一。

3. 在人工智能数据治理当中,要贯彻自治和管制之间的平衡。

 

法律和科技之间的关系双向的:一方面,科技进步需要修改既有法律,为科技创新创造一个良好的环境;另一方面,技术是一把双刃剑,它可以带来包括人工智能技术引发的个人信息和隐私保护问题、算法歧视等一系列的法律问题。清华大学结合法学和信息技术的优势,创造了计算法学这样的新学科,致力于法律科技问题的解决。

 

回到今天的主题,解决AI的公平性,套用著名法学家哈佛大学法学院原院长庞德教授的一句话,问一个法学家什么是“公平”,就如同问一个哲学家什么是真理一样,难以回答。不是说法学家和哲学家对这样的问题无能为力,而是这样基础性的语言概念具有很强的语言基础的性质,所以很难作出一言以蔽之的定义。刚才杨教授也提到,唐朝的“公平”和现代社会的“公平”肯定不是一个含义,公平的概念是抽象的、发展的。所谓抽象的公平,是指每个人对公平的理解不一样。所谓发展的公平,是指随着时代的发展,对公平的理解也在发生变化。改革开放初期投机倒把行为认定是犯罪,但之后则废止了“投机倒把罪”,变成了一种合法的行为。也即,对于“公平”的理解,随着时代的变化,有很大的发展性。因而,不是说法律人不讲公平,法律一定是把公平作为最优先的发展目标,但在解决问题的时候,不能简单或者是不能仅仅诉诸于公平,否则这样和门口老大爷的思维方式没有二致。

 

问题在于如何通过制度建设来细化公平的类型,使公平的观念得到落实。公平很难定义,却可以描述。公平虽然是一个基础的语言概念,但我们能够感受到什么是公平、什么是不公平。什么是公平?公平是一个世界型的难题。每一代先哲,无论是哲学家还是政治学家、法学家都为此付出众多研究。比如说,同样的事情,同样处理;不同的事情,就应该不同处理。同样的人使用同样规则,不能因人而不同。具体到人工智能所引发的法律问题上,不同问题伴随着不同的风险。不同风险带来的结果不一,但人们普遍希望的是起跑线一致。也就是机会平等,程序上大家都是一致的,形式上都是一致的,强调的更多是形式平等、机会平等和程序上的公平,忽略了结果公平。而法律既要解决形式上的公平、机会上的公平和程序上的公平,还要实现形式公平和实质公平的合一。

 

在法律中,“公平”的字眼无处不在,从《民法典》第6条中的“公平原则”到《行政许可法》中的公平、到教育公平、医疗公平,都体现出公平的理念。真正的公平需要具备一个重要条件——不论结果怎么样,是当事人自我决定、自愿的结果,那么自我决定、自我负责就构成了公平性非常重要的前提。这对AI的治理也非常重要,在个人信息和数据采集、对信息加工应用的场景下,个人的同意就构成了非常重要的前提。用户是否同意,直接影响了形式上的公平性。

 

虽然我们没有完全定义公平,但却能感受到什么是公平,同时也能感受到什么是不公平。最早对AI提出公平性质疑的,就是美国的COMPAS系统,大家对人工智能计算量刑的方式产生了争议。这种量刑可能是基于既往的数据对未来量刑进行的预测。但由于时代的不同,有的时候是严刑峻法的时代,有的时候是宽松的时代,所以既往量刑的数据本身就存在噪音,由此得出的结论可能天然带有歧视,甚至出现针对某些人群的歧视,比如对黑人量刑加重的例子比比皆是。此外,不公平可能源于算法本身,比如大数据“杀熟”,不同的情况下不同定价是可以的,但在同样的服务,没有任何差别的情况下出现了算法的歧视,大数据的“杀熟”显然违反了公平。(如图5)

 

- 图5 -

 

公平含义是非常丰富的,我们可以感受到什么不公平,以及如何来解决公平。对于公平,罗尔斯的正义理论提到了两点,一是平等的自由原则,二是消除结果上的不平等以达至正。这样我们就会发现,在人工智能的公平规制上,首先有一个基本的假设,假设每个用户都是理性人,在人工智能企业采集用户数据的时候,用户可以自我决定是否允许他人采集,并且自我决定自我负责。每个人在是否参与人工智能上都是自己命运的主宰者。

 

这种公平是形式上的平等,尊重当事人自主自治的意愿,前提是平台和用户都是平等的民事主体,权利能力都相同。如果平台要使用用户的数据,必须建立在用户知情同意的基础上,用户不仅知情同意,而且还可以了解数据使用之后的用途去向,对信息的错误可以更改,对不利的信息可以删除,甚至可以撤回自己授权的数据。然而现实中,在这种形式平等的背后,存在很强的实质上的不平等。

 

在用户和企业当中,不仅经济上处于不平等,在信息的掌握上也处于不平等的地位。大量的APP在使用的时候会出现一个“知情同意”的选项,过去我们对知情同意的格式条款主要是要求“告知要充分”。现在社会里不仅是告知充分,是告知过量,我们说信息已然超载。一个知情同意的内容,至少是上千字的,甚至可能上万字。大量的信息让消费者无力长时间阅读,只好选择同意,否则只能退出,这种情况造成了格式条款对自我决定权的剥夺。

 

那么问题在于如何实现形式公平和实质公平的平衡?就格式条款而言,

 

在生活中获得了普遍应用,《民法典》第496条对于平台单方制定的格式条款,要求涉及当事人权利义务要进行提示。如果提供格式条款的一方没有提示,视为条款没有纳入到协议当中。并且对于一些不合理的条款,即便用户同意了,法律也可以进行效力控制,宣布该条款无效。当对条款理解不一致的时候,要做出不利于条款制定者的解释,以此达至形式上的公平和实质上的公平。

 

在人工智能数据治理当中,还要贯彻自治和管制之间的平衡。一方面要尊重用户的知情权,让用户在充分知情的情况下自主自愿地作出,这才符合公平的起点。同时,因为地位的不平等、信息的不对称,国家在市场失灵的时候要出现,这种出现其实有助于通过管制的方式让当事人的自治得到充分的体现,而不是消灭自治。

 

对于自治的管制,其实是在想办法如何实现一种公平,AI治理的公平。管制的方式,存在以下几种情形:第一,格式条款的控制。这种控制很重要,因为平台具有自己经济和信息的优势,逼迫用户要么签字、要么离开,不签字就不能够往下进行。第二,数据治理。让数据降噪,比如美国COMPAS刑期的预测,其本身数据存在问题,得出的结论也必然影响公平。第三,算法的规制。有具体的法律规定,要求算法的透明度和算法的可解释。如果说数据治理和算法规制还是内部方式的话,还有两个外部方式的介入和人工的介入,外部介入就要求有第三方的评估、监测和相应的审计制度,通过第三方的功能来实现市场的平衡。人工智能替代了很多人工,但不能彻底替代人类,要通过人工的介入,比如利用人工对人工智能结果的复检,对自动化决策的一方进行复议。所有人工智能的产品,只能作为辅助决策的工具,不能完全替代决策本身。

 

在数据治理当中,告知应当采用详尽的、清晰易懂的语言,而且要告知处理者的身份、联系方式、处理的目的、处理的方式等等,法律都有具体明确的规定,以此保障当事人权益得以实现。很多方面要强化同意,比如敏感信息的收集和处理,以及已经收集的信息,再单独弹窗,让消费者接受,否则都会视为在形式上欠缺正当性的基础。实质上,《个人信息保护法(二审稿)》第25条中对于自动化决策的评估,在《网络安全法》中有相应的评估制度、监测制度、审计制度。个人信息保护法也提到了处理敏感信息和利用个人信息进行自动化决策,向第三人提供信息或委托他人处理等情形,必须进行风险的评估。

 

就风险评估而言,在个人信息保护法中也有所谓的进行合规审计,通过市场的力量公布一些企业在合规方面的表现,发挥市场淘汰功能。

 

中国内部对人工智能治理的规范涵盖法律到法规、到部门规章,个人建议未来应该统合,形成统一的立法。在法律界中也在讨论是专项立法还是综合立法,个人建议在时机成熟的时候推出综合立法,这样可以增强立法者的信心,也利于产业的发展。在这个过程中,既要考虑对个人数据的保护,也要考虑保护和创新之间如何形成平衡。

 

AI是社会发展不可避免的一个选择,我们没有回头路可走,AI带来很多问题,但AI也带来了很多提高公平的机会。所以,未来的社会发展当中,人和机器之间,如何从竞争关系变成人机协作的关系,共同实现人类福利的最大化,构建所谓公平的数字空间,也是我们法律人为之奋斗的目标。

 

- Jacob Stead -

 

@王小川

 

1. 数据的统一,我们有机会在全局层面上把主要矛盾抽出来,更容易形成整个社会的共识。

2. 在机器的判断越来越准确之后,公平定义的矛盾更加突出。

 

首先,人工智能的高度发展对公平性的提升是有利的。今天的人工智能发展在供给侧上带来了很多服务,不管是教育还是医疗,提供了更多的供给。在供给不足的时候,会形成少数人去垄断服务和收益,使社会资源分配不均的可能性变大,最后资源极大丰富,类似于迈向共产主义,有这样的物质基础为公平性带来更好的先决条件。

 

其次,随着大数据的连接,从前人们很容易陷入局部矛盾——每个人都发现问题,但很难形成共识,就像盲人摸象,都是局部。随着数据的统一,我们有机会在全局层面上把主要矛盾抽出来,更容易形成整个社会的共识,这样在公平的问题上有机会得到更多的讨论,所以互联网发展、信息发展和AI发展对于公平性提供更好的抓手,也会有更多的难点,会带来新的挑战。其中一个比较敏感的问题是,在机器的判断越来越准确之后,公平定义的矛盾更加突出。比如在金融贷款、保险商业等领域,如果对用户进行个人画像,其商业效率就很低。如果基于个人画像进行判断后,拒绝向用户发放贷款,如此是否公平?这是机器判断准确之后反映出的新问题。再如无人驾驶,在机器产生精确判断之后,如果发生交通事故,怎么做出价值判断?所以机器变得精准之后,这种评价体系的挑战会变得更大。

 

再次,规模变大之后会产生“马太效应”,资源更加集中,少数公司或者是少数人去垄断这些资源,金字塔塔尖上会得到更多的服务,这是历史上不断出现的问题,资本主义国家尤其会出现这种情况。这种供给变多之后,少数人在塔尖上,虽然人少,但形成的社会影响和伦理问题就会变大,所以在机会挑战里会带来一些问题的激化。

 

@山世光

 

作为AI从业者、开发者、运营者的我们,一定要意识到:我们所开发的AI既可能被用来促进社会公平和消除歧视,也有可能被滥用被用来助纣为虐。

 

AI的公平性问题,其来源非常复杂。但本质上主要不在于技术本身,而是来自人心,也就是说,其本源是社会的公平性。尽管如此,作为AI从业者的我们,一定要牢记于心的是:我们所开发的AI既可能被用来促进社会公平和消除歧视,也有可能会被滥用,会被用来助纣为虐,放大某些方面的社会歧视。更重要的是,我们可能在无意中做了坏事,成了帮凶。因此,一定要严肃地对待AI伦理和公平性问题。

 

上述AI公平性问题的解决也是分层、分阶段的。从技术角度来说,需要在AI系统“成型”之路的各个环节、各个阶段进行分析和审视,以阻断可能的“偏见”引入。更重要的是,AI从业者需要关注和理解该问题的社会学、法学视角,反过来社会学和法学界也需要关注和理解该问题的技术视角。该问题的最终解决不仅仅依赖技术的进步,更依赖于技术专家和社会学家两个群体的顺畅沟通,深度对话。

 

- Rishab Soni -

 

议题讨论

 

议题一:随着社会的发展、技术的演进和文化的差异,社会公平性内涵和外延也都在发生非常大的变化。AI技术在社会各个领域的渗透和普及,到底在AI未来高度渗透的时代,公平性到底应该如何进行新的定义,我们对于内涵和外延有什么样的新的解读?

 

@申卫星

 

1. AI降低了司法成本,使得正义的可及性提高。整个社会可以在节省更多的成本和能源的情况下,实现普惠的司法正义。

2. AI使局部认知变成全局的、更全面的认识,对于公平的实现有非常强的指引作用。

 

其实我们应该看到,AI也带来了促进程序公平、实质公平更多的机会。英国法学家Richard Susskind提到过“在线法院和司法的未来”,他表达了一个特别好的理念:大家过去认为法院是一个场所,传统的法院诉讼会带来很多成本——不光是人聚集在法院的场所里,还要聘请律师。现在大量发展在线诉讼之后,降低司法成本,使得正义的可及性提高。当事人可以在较少的成本下,甚至整个社会也可以节省更多的成本和能源的情况下,实现普惠的司法正义。

 

可以发现,AI“助纣为虐”的现象下有一个倍增的效应,这种倍增可能助力在优势方面,也可能在劣势方面。另一方面我们也会发现,过去很多问题可能都是局部的,通过大数据对整个的案情、对于某些律师、某些法官进行画像,会得到整体的印象。过去在没有AI的情况下,局部的只能存在于局部当中,通过大数据的引入变成一个全局、更全面的认识,这样对于公平的实现有非常强的指引作用,从点到面形成一个更好地促进实现实质公平的效应。

 

@杨强

 

1. 如果不知道创新所带来的伦理风险是什么,何谈监管?所以,第一步是允许百花齐放。

2. 在过去,农民对公平性的诉求是“耕者有其田”,现在我们可以说“智者有其数”,就是人工智能的行业工作者都能享受到数据,而且“数者有其智”。

 

“技术是有两面性的,AI也不例外”,用AI赋能金融,可以发现很多有意思的现象。AI伦理可以借鉴,监管在这方面起的作用,一方面,监管使得社会的公平性大为提升,使得那些不规范的现象得到抑制。另一方面,如果刻意监管,可能导致整个市场的滞后。如何能够合理地监管和鼓励创新,并且监管能够有效地提供一个防范风险的工具,这本身是一门非常复杂的学问。我国在鼓励创新这方面一直做得很好,如果不知道创新所带来的伦理风险是什么,何谈监管?所以,第一步是允许百花齐放。这样可以积累数据,积累数据以后,可以进一步讨论,什么是合规、什么是公平、什么是不公平,达成第一步的认识。然后进行下一步的AI技术的发展,这应该说是一个螺旋式的上升。

 

监管为技术的发展提供了进一步的优化而非限制的目标。技术工作者应该与时俱进,不要因所谓的监管的规范望而却步,而是要进一步提升能力。不论AI技术如何发展,有一个趋势不可忽略,就是数据越大,数据的来源越多,公平性只会增加、不会减少。从这一点来说,我们只要做到合理合规,让人们自愿加入数据生态,并把这个数据生态做大,我们就能沿着正确的方向在走。在过去,农民对公平性的诉求是“耕者有其田”,现在我们可以说“智者有其数”,就是人工智能的行业工作者都能享受到数据。而且“数者有其智”,有数据的可以贡献到人工智能中去。在众多变量中找到一个不变量,我们就能保证不犯错。

 

@王小川

 

人们讨论人工智能风险和伦理的时候,加入大量的个人想象力,这是不真实的。因此,需要对AI是什么、我们所谓的公平到底是什么,在行业专家里需要有交叉的学习。

 

怎样界定公平性是一个特别大的话题,公平性在不同历史时期是不一样的,甚至在不同的意识形态下也不同。

 

公平性背后的问题非常复杂,对公平性的理解,法律学者、技术学者有相当不同的视角,法律上、经济上、政治上有诸多思考。西方有西方的定义,很多地方可以借鉴,但我国也有自己的一套判断标准,这件事情并不是老百姓或者是技术工作者一拍脑袋就能够想清楚的一件事情。我们要加强这方面的互相学习,技术人员学习设备问题、学习法律问题的理解,法律学者需要对技术进行更多的了解。此外,媒体对AI有很多渲染,对它的能力所及有较多夸张,甚至展现出其无所不能的样态,导致人们讨论人工智能风险和伦理的时候,加入大量的个人想象力,这是不真实的。这种情况下,对AI是什么、我们所谓的公平到底是什么,在行业专家里需要有交叉的学习,这是很重要的。

 

- Rishab Soni -

 

议题二:从技术以及其他的视角,怎样客观、公正地看待AI系统在预测和决策过程当中所体现出来的公平性的风险,到底都有哪些方面可能存在一些公平性的风险,主要的体现形式以及存在的方面?

 

@山世光

 

AI公平性问题本质上是社会公平性和歧视性问题,是社会人脑中的公平或歧视的映射。

 

我理解,这个问题想要讨论的是AI公平性风险的来源是什么。

 

AI公平性问题本质上是社会公平性和歧视性问题,是社会人心中的公平或歧视的映射。在AI算法和系统设计以及应用的全流程中,涉及到的方方面面的人,都可能会有意或无意的引入AI公平性的问题。下面我们就梳理一下这个过程,看看有哪些方面可能引入歧视或偏见问题。首先,在AI产品的需求调研阶段,企业里会有产品经理,即所谓PM,他们会去调研市场上需要什么样的产品,其中涉及什么样的AI技术,这个过程中就很容易因为产品的目标用户群体设定不周全而引入潜在的歧视风险。例如,在疫情期间,健康绿码类产品就给大量不使用智能手机的老年人的出行带来了很多麻烦。当然,并不是说企业的产品不能没有“目标人群”,我这里指的只是类似于健康码这样被设定为所有人类必需品的“产品”

 

接下来,在这类产品或系统的总体设计或详细设计阶段,不难理解,系统设计者也会有意或无意的引入类似的可能偏见。再接下来,进入AI算法的设计阶段。首先是AI算法中优化目标函数的设置,特别是对深度学习而言,主要是所谓Loss函数怎么设计,如果这个目标函数在设计的时候没有考虑公平性,或者没有施加目标人群多样性等约束条件,就在算法优化目标设定上埋下了不公平和歧视的又一粒种子。

 

再接下来是如何实现设定的目标函数。即使是上述目标设置非常公平,没有歧视、没有偏见,实现方式也可能带来偏见和歧视问题。当前AI领域,以深度学习为代表,数据驱动的统计学习是当前AI的主流实现方法。这些统计的方法必然受制于数据。首先在数据收集阶段,数据建设人员会按照算法设计者的要求收集和标注数据,他们都可能有意或无意的未能周全的设定数据收集需求,或者难以收集到“没有偏见”的数据,从而导致数据多样性不足、代表性不足、数据不均衡等问题,比如对老人、小孩、弱势群体的关注度不够等等,从而带来数据上的偏见,进而导致统计学习方法的结果偏见。尽管学术界有一些方法可以部分应对样本不均衡等问题,但如果算法设计者没有采用或者考虑不足,还是会带来有偏的结果。即使不使用基于统计学习的AI算法,例如采用更传统的知识驱动的AI方法,则其同样非常依赖于AI算法设计者脑中的“专家知识”,而这些专家知识同样可能因为其认知的局限性而导致有偏的结果。

 

之后,在AI算法实现之后,我们还需要对其进行评估,以决定其性能优劣。当前,AI算法的评估多数是以准确率、正确率等技术性指标来进行的,考虑的主要还是在既有数据上的正确性和准确度等。如果在这个过程中没有充分考虑公平性、多样性等避免歧视和偏见的指标,会导致过度关注准确率等技术性指标,因而不能识别出AI算法中的偏见。

 

最后,在AI产品或系统实际应用部署或上线阶段,如果部署者、运营者对于AI算法的偏见没有认知,因而在部署和运营阶段,没有设计应对AI算法中潜在偏见的预案,结果就会必然带来有偏见的后果。

 

 

- Rishab Soni -