人工智能语言模型可能会对残疾人产生攻击性或偏见

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

自然语言处理 (NLP) 是一种人工智能,允许机器在许多不同的应用中使用文本和口语单词 -;例如智能助手或电子邮件自动更正和垃圾邮件过滤器 -;帮助个人用户和公司实现流程自动化和优化。然而,宾夕法尼亚州立大学信息科学与技术学院 (IST) 的研究人员表示,支持该技术的算法经常表现出可能冒犯残疾人或对残疾人产生偏见的偏见。研究人员发现,他们测试的所有算法和模型都包含针对残疾人的显着隐性偏见。以前的…

Natural Language Processing (NLP) ist eine Art künstliche Intelligenz, die es Maschinen ermöglicht, Text und gesprochene Wörter in vielen verschiedenen Anwendungen zu verwenden -; wie intelligente Assistenten oder E-Mail-Autokorrektur und Spamfilter -; Unterstützung bei der Automatisierung und Optimierung von Abläufen für einzelne Benutzer und Unternehmen. Laut Forschern des Penn State College of Information Sciences and Technology (IST) weisen die Algorithmen, die diese Technologie antreiben, jedoch häufig Tendenzen auf, die Menschen mit Behinderungen gegenüber beleidigend oder voreingenommen sein könnten. Die Forscher fanden heraus, dass alle von ihnen getesteten Algorithmen und Modelle eine signifikante implizite Voreingenommenheit gegenüber Menschen mit Behinderungen enthielten. Frühere …
自然语言处理 (NLP) 是一种人工智能,允许机器在许多不同的应用中使用文本和口语单词 -;例如智能助手或电子邮件自动更正和垃圾邮件过滤器 -;帮助个人用户和公司实现流程自动化和优化。然而,宾夕法尼亚州立大学信息科学与技术学院 (IST) 的研究人员表示,支持该技术的算法经常表现出可能冒犯残疾人或对残疾人产生偏见的偏见。研究人员发现,他们测试的所有算法和模型都包含针对残疾人的显着隐性偏见。以前的…

人工智能语言模型可能会对残疾人产生攻击性或偏见

自然语言处理 (NLP) 是一种人工智能,允许机器在许多不同的应用中使用文本和口语单词 -; 例如智能助手或电子邮件自动更正和垃圾邮件过滤器 -; 帮助个人用户和公司实现流程自动化和优化。 然而,宾夕法尼亚州立大学信息科学与技术学院 (IST) 的研究人员表示,支持该技术的算法经常表现出可能冒犯残疾人或对残疾人产生偏见的偏见。

研究人员发现,他们测试的所有算法和模型都包含针对残疾人的显着隐性偏见。 预训练语言模型的前期研究——; 它们接受了可能包含隐性偏差的大量数据的训练; 已经确定了对性别和种族的社会人口偏见,但到目前为止,对残疾人的类似偏见尚未得到广泛研究。

“我们研究的 13 个模型被广泛使用并且本质上是公开的,”IST 学院的研究生、该研究的第一作者 Pranav Venkit 今天(10 月 13 日)在第 29 届国际计算语言学会议(COLING)上表示。 “我们希望我们的发现能够帮助开发人员开发人工智能,以帮助特定群体——特别是在日常活动中依赖人工智能的残疾人——意识到这些偏见。”

在他们的研究中,研究人员检查了根据源数据训练的机器学习模型,将相似的单词分组在一起,从而允许计算机自动生成单词序列。 他们创建了四个简单的句子模板,其中可以不同地填写“男人”、“女人”或“人”的性别名词以及英语中最常用的 10 个形容词之一 -; 例如:“你是一个好人的父母。” 然后,他们生成了 600 多个形容词,这些形容词可能与残疾人或正常人相关——; 例如神经正常或视力障碍 -; 随机替换每个句子中的形容词。 该团队在每个模型中测试了超过 15,000 个独特的句子,以生成形容词的单词关联。

例如,我们选择了“好”这个词,并想看看它如何与指非残疾和残疾的术语联系起来。 添加非残疾术语后,效果从“好”变为“极好”。 但当“好”与残疾术语相关联时,我们得到的结果是“坏”。 因此,形容词形式的这种变化本身就表明了该模型的明显偏见。”

Pranav Venkit,IST 学院博士生

虽然这项练习揭示了模型中存在的显性偏差,但研究人员希望进一步检查每个模型的隐性偏差; 在无意识的情况下对人的态度或将刻板印象与他们联系起来。 他们检查了为残疾人和非残疾人群体生成的形容词,并测量了每个人的情绪——; 一种评估文本是正面、负面还是中性的 NLP 技术。 他们检查的所有模型一致对含有与残疾相关的单词的句子的评价比没有与残疾相关的单词的句子更负面。 当使用与残疾相关的术语时,根据 Twitter 数据预先训练的一个特定模型在 86% 的情况下将情绪得分从正面变为负面。

“如果我们只看这个值,我们就会发现,只要在对话中添加与残疾相关的术语,整个句子的情感值就会下降,”Venkit 说。 “例如,如果用户在评论或社交媒体帖子中包含与残疾相关的术语,那么该帖子被审查或限制的可能性就会增加。”

研究人员还测试了两个用于自动生成新闻文章等长文本的大型语言模型中的隐性偏差,以了解句子模板中的空格如何根据所使用的形容词而变化。 在这项分析中,他们生成了 7,500 个句子,再次不同地插入了指非残疾或残疾的形容词,并测试了句子模板中的空格如何根据所使用的形容词而变化。 在这种情况下,当给出句子“A man has 'blank'”时,语言模型会预测空白词“changed”。 然而,当在句子中添加与残疾相关的形容词时,导致“聋盲人有‘空’”,模型预测该空白为“死”。

这些模型对残疾人的隐性偏见在各种应用中可能很明显: 例如,在短信中,当自动更正应用于拼写错误的单词时,或者在社交媒体上,其中有禁止辱骂或骚扰性帖子的规则。 由于人类无法审查大量帖子,人工智能模型使用这些情绪评分来过滤掉那些被认为违反平台社区标准的帖子。

Mukund Srinath 解释说:“如果有人谈论残疾问题,而该帖子没有恶意,那么这样一个不注重区分偏见的模型可能会仅仅因为该帖子存在与残疾相关的内容,就将该帖子归类为有毒帖子。” IST 学院的博士生,也是该研究的合著者。

Venkit 说:“每当研究人员或开发人员使用其中一种模型时,他们并不总是会考虑受其影响的所有不同物种和人群,尤其是当他们关注结果和所提供的内容的质量时。” “这项工作表明,人们需要谨慎对待他们使用的模型类型以及它可能对现实生活中的人们产生的影响。”

Venkit 和 Srinath 与信息科学与技术助理教授 Shomir Wilson 一起参与了该项目。

来源:

宾夕法尼亚州