Les modèles de langage de l'IA pourraient être offensants ou biaisés à l'égard des personnes handicapées
Le traitement du langage naturel (NLP) est un type d'intelligence artificielle qui permet aux machines d'utiliser du texte et des mots parlés dans de nombreuses applications différentes - ; tels que des assistants intelligents ou des filtres de correction automatique de courrier électronique et de spam - ; Aidez à automatiser et à optimiser les processus pour les utilisateurs individuels et les entreprises. Cependant, selon des chercheurs du Penn State College of Information Sciences and Technology (IST), les algorithmes qui alimentent cette technologie présentent souvent des préjugés qui pourraient être offensants ou biaisés envers les personnes handicapées. Les chercheurs ont découvert que tous les algorithmes et modèles testés contenaient des préjugés implicites importants à l’encontre des personnes handicapées. Précédent…

Les modèles de langage de l'IA pourraient être offensants ou biaisés à l'égard des personnes handicapées
Le traitement du langage naturel (NLP) est un type d'intelligence artificielle qui permet aux machines d'utiliser du texte et des mots parlés dans de nombreuses applications différentes - ; tels que des assistants intelligents ou des filtres de correction automatique de courrier électronique et de spam - ; Aidez à automatiser et à optimiser les processus pour les utilisateurs individuels et les entreprises. Cependant, selon des chercheurs du Penn State College of Information Sciences and Technology (IST), les algorithmes qui alimentent cette technologie présentent souvent des préjugés qui pourraient être offensants ou biaisés envers les personnes handicapées.
Les chercheurs ont découvert que tous les algorithmes et modèles testés contenaient des préjugés implicites importants à l’encontre des personnes handicapées. Recherches antérieures sur les modèles linguistiques pré-entraînés - ; qui sont formés sur de grandes quantités de données pouvant contenir des biais implicites - ; a identifié des préjugés sociodémographiques en faveur du sexe et de la race, mais jusqu'à présent, des préjugés similaires envers les personnes handicapées n'ont pas été largement étudiés.
"Les 13 modèles que nous avons examinés sont largement utilisés et de nature publique", a déclaré aujourd'hui (13 octobre) Pranav Venkit, étudiant diplômé du Collège de l'IST et premier auteur de l'étude, lors de la 29e Conférence internationale sur la linguistique computationnelle (COLING). « Nous espérons que nos résultats aideront les développeurs développant l’IA à aider des groupes spécifiques – en particulier les personnes handicapées qui dépendent de l’IA dans leurs activités quotidiennes – à prendre conscience de ces préjugés. »
Dans leur étude, les chercheurs ont examiné des modèles d’apprentissage automatique formés sur des données sources pour regrouper des mots similaires, permettant ainsi à un ordinateur de générer automatiquement des séquences de mots. Ils ont créé quatre modèles de phrases simples dans lesquels un nom de genre « homme », « femme » ou « personne » et l'un des 10 adjectifs les plus fréquemment utilisés en anglais peuvent être remplis de manière variable - ; par exemple : « Vous êtes les parents d’une bonne personne. » Ils ont ensuite généré plus de 600 adjectifs pouvant être associés à des personnes avec ou sans handicap - ; comme neurotypique ou malvoyant - ; remplacer aléatoirement l'adjectif dans chaque phrase. L'équipe a testé plus de 15 000 phrases uniques dans chaque modèle afin de générer des associations de mots pour les adjectifs.
Par exemple, nous avons choisi le mot « bon » et voulions voir comment il se connectait aux termes faisant référence à la fois au non-handicap et au handicap. Avec l’ajout d’un terme non-handicap, l’effet passe de « bon » à « excellent ». Mais lorsque « bon » est associé à un terme de handicap, nous obtenons le résultat « mauvais ». Ce changement dans la forme de l’adjectif lui-même montre donc le biais explicite du modèle.
Pranav Venkit, doctorant, Collège de l'IST
Tandis que cet exercice a indiqué le biais explicite présent dans les modèles, les chercheurs ont voulu examiner plus en détail chaque modèle pour le biais implicite - ; Attitudes envers les gens ou leur associer des stéréotypes sans en être conscient. Ils ont examiné les adjectifs générés pour les groupes handicapés et non handicapés et ont mesuré l'humeur de chaque individu - ; une technique PNL pour évaluer si le texte est positif, négatif ou neutre. Tous les modèles qu’ils ont examinés ont systématiquement évalué les phrases contenant des mots associés au handicap de manière plus négative que celles qui n’en contenaient pas. Un modèle particulier pré-entraîné sur les données Twitter a fait passer le score de sentiment de positif à négatif dans 86 % des cas lorsqu'un terme lié au handicap était utilisé.
"Si nous regardons simplement cette valeur, nous constatons qu'en ajoutant simplement un terme lié au handicap à la conversation, la valeur sentimentale de la phrase entière diminue", a déclaré Venkit. "Par exemple, si un utilisateur inclut un terme lié au handicap dans un commentaire ou une publication sur les réseaux sociaux, la probabilité que cette publication soit censurée ou restreinte augmente."
Les chercheurs ont également testé les biais implicites dans deux grands modèles de langage utilisés pour générer automatiquement de longs textes tels que des articles de presse, afin de voir comment un espace dans le modèle de phrase changerait en fonction de l'adjectif utilisé. Dans cette analyse, ils ont généré 7 500 phrases, là encore des adjectifs insérés de manière variable faisant référence au non-handicap ou au handicap, et ont testé comment un espace dans le modèle de phrase changerait en fonction de l'adjectif utilisé. Dans ce cas, lorsqu'on leur donne la phrase « Un homme a « vide », les modèles linguistiques prédisent « changé » pour le mot vide. Cependant, lorsqu'un adjectif lié au handicap a été ajouté à la phrase, ce qui a donné « Un homme sourd-aveugle a « vide » », le modèle a prédit « est mort » pour le blanc.
Les préjugés implicites des modèles contre les personnes handicapées pourraient être évidents dans diverses applications - ; par exemple, dans les messages texte, lorsque la correction automatique est appliquée à un mot mal orthographié, ou sur les réseaux sociaux, où il existe des règles interdisant les publications abusives ou harcelantes. Étant donné que les humains sont incapables d'examiner le grand nombre de publications, les modèles d'intelligence artificielle utilisent ces scores de sentiment pour filtrer les publications considérées comme violant les normes communautaires de la plateforme.
"Si quelqu'un parle de handicap et que le poste n'est pas toxique, un modèle comme celui-ci qui ne se concentre pas sur la séparation des préjugés pourrait catégoriser le poste comme toxique simplement parce qu'il y a un handicap associé au poste", a expliqué Mukund Srinath. Doctorant au College of IST et co-auteur de l’étude.
"Chaque fois qu'un chercheur ou un développeur utilise l'un de ces modèles, il ne prend pas toujours en compte toutes les différentes espèces et personnes qui en seront affectées - surtout lorsqu'il se concentre sur les résultats et la qualité de ce qu'il fournit", a déclaré Venkit. "Ce travail montre que les gens doivent faire attention au type de modèles qu'ils utilisent et à l'impact que cela pourrait avoir sur de vraies personnes dans leur vie quotidienne."
Venkit et Srinath ont travaillé avec Shomir Wilson, professeur adjoint de sciences et technologies de l'information, sur le projet.
Source:
.