哥本哈根IT大学的 Nina Nørgaard 和她的组员正在参与一项非同寻常的工作,更好地方法来识别网络上的偏见。研究人员对数千条 Facebook、Reddit 和 Twitter 帖子进行了调查,并验证这些帖子是否有性别歧视、刻板印象或是骚扰。
研究发现,22个国家的一半以上的女性说她们在网上受到骚扰或虐待。五分之一的遭受虐待的女性说她们改变了自己的行为——减少了或停止使用互联网。
社交媒体公司开始使用 AI 来识别和删除贬低、骚扰或威胁暴力侵害女性行为的帖子。研究人员发现,没有一个标准去识别性别歧视或厌恶女性的帖子;而且大多数研究都是用英语进行的,这使得在其他语言和不同文化的人更没有主观性的决定。因此,丹麦的研究人员尝试了一种新方法,聘请 Nørgaard 和 7 名全职人员来审查和标记这些帖子。他们会选择不同年龄和国籍、不同政治观点的人,这样就可以减少对于单一的世界观的偏见。在这些被标记的人中,包括软件设计师、气候活动家、女演员和环保人员。研究人员表明这些对话可以更准确的标记数据来训练 AI 的算法,经过数据微调的 AI 可以在85%的时间里辨别在社交媒体平台上的偏见行为。但是除了社交媒体之外,这些发现还是很有用的。企业也开始使用AI来筛选工作上或新闻稿中带有性别歧视的内容。标记数据可能看起来是平淡无奇的,但这是机器学习算法工作的燃料。AI的研究伦理和研究人员还是希望AI制造商更加关注用于训练大型语言模型的数据集。如OpenAI的文本生成器GPT-3或用于识别照片中物体的ImageNet模型。在图灵的研究中,数据标记者会按照时间来了解对话的整个内容,而不是像丹麦研究那样从单个的帖子中就得出结论。图灵的研究人员会召开会议对这些帖子如何标识进行讨论,从而达成共识。因此,他们表示在使用过数据集微调的语言模型后,准确率为92%。来源: AI科技大本营