哥本哈根IT大学的 Nina Nørgaard 和她的组员正在参与一项非同寻常的工作,更好地方法来识别网络上的偏见。研究人员对数千条 Facebook、Reddit 和 Twitter 帖子进行了调查,并验证这些帖子是否有性别歧视、刻板印象或是骚扰。 

研究发现,22个国家的一半以上的女性说她们在网上受到骚扰或虐待。五分之一的遭受虐待的女性说她们改变了自己的行为——减少了或停止使用互联网

社交媒体公司开始使用 AI 来识别和删除贬低、骚扰或威胁暴力侵害女性行为的帖子。研究人员发现,没有一个标准去识别性别歧视或厌恶女性的帖子;而且大多数研究都是用英语进行的,这使得在其他语言和不同文化的人更没有主观性的决定。因此,丹麦的研究人员尝试了一种新方法,聘请 Nørgaard 和 7 名全职人员来审查和标记这些帖子。他们会选择不同年龄和国籍、不同政治观点的人,这样就可以减少对于单一的世界观的偏见。在这些被标记的人中,包括软件设计师、气候活动家、女演员和环保人员。研究人员表明这些对话可以更准确的标记数据来训练 AI 的算法,经过数据微调的 AI 可以在85%的时间里辨别在社交媒体平台上的偏见行为。但是除了社交媒体之外,这些发现还是很有用的。企业也开始使用AI来筛选工作上或新闻稿中带有性别歧视的内容。标记数据可能看起来是平淡无奇的,但这是机器学习算法工作的燃料。AI的研究伦理和研究人员还是希望AI制造商更加关注用于训练大型语言模型的数据集。如OpenAI的文本生成器GPT-3或用于识别照片中物体的ImageNet模型在图灵的研究中,数据标记者会按照时间来了解对话的整个内容,而不是像丹麦研究那样从单个的帖子中就得出结论。图灵的研究人员会召开会议对这些帖子如何标识进行讨论,从而达成共识。因此,他们表示在使用过数据集微调的语言模型后,准确率为92%。

Elisabetta Fersini 是意大利Milan-Bicocca大学的助理教授,她自 2017 年以来一直在研究社交媒体上的偏见。她称丹麦人员的方法是有助于标注数据和构建AI模型。同样,这项研究也可以采取一种更精细的方法来标记数据,就像图灵研究所所使用的方法。偏见是取决于人们看到特定图像或一些文本以及社会属性。她认为应该用多种语言进行研究。由于地区、教育水平以及类型的关系,每个人的看法都是不同的。人类学家、微软高级首席研究员Mary Gray说“他们需要更多的时间告诉你这项研究”。虽然丹麦和图灵研究人员所采取的方法对人性和个人的感觉有很多微妙的地方,但它仍然在思考个人,最终会打破这个体系。

多项研究发现,偏见是一个常见的特点。虽然Mary Gray认为那些帖子应该被标记,然后交由调解人进行处理,而不是通过AI自动决定。但这可能会导致一些不好的言论,并且这对社交媒体公司来说更是一个挑战,因为这意味着技术本身是无法解决问题的。就像大多数的父母可能会不理解孩子说的话一样,人类和群体表达类似骚扰这样的语言是非常复杂的,不是能够通过简单的文本来标注的。然而我们可以训练AI来使用这种新方法,加强标签的多样性,这样就可以遏制在线骚扰。参考链接:https://www.wired.com/story/new-way-train-ai-curb-online-harassment/