Os modelos de linguagem de IA podem ser ofensivos ou tendenciosos em relação às pessoas com deficiência
O Processamento de Linguagem Natural (PNL) é um tipo de inteligência artificial que permite que máquinas usem texto e palavras faladas em diversas aplicações -; como assistentes inteligentes ou autocorreção de e-mail e filtros de spam -; Ajude a automatizar e otimizar processos para usuários individuais e empresas. No entanto, de acordo com investigadores do Penn State College of Information Sciences and Technology (IST), os algoritmos que alimentam esta tecnologia apresentam frequentemente preconceitos que podem ser ofensivos ou tendenciosos em relação às pessoas com deficiência. Os pesquisadores descobriram que todos os algoritmos e modelos testados continham preconceitos implícitos significativos contra pessoas com deficiência. Anterior…

Os modelos de linguagem de IA podem ser ofensivos ou tendenciosos em relação às pessoas com deficiência
O Processamento de Linguagem Natural (PNL) é um tipo de inteligência artificial que permite que máquinas usem texto e palavras faladas em diversas aplicações -; como assistentes inteligentes ou autocorreção de e-mail e filtros de spam -; Ajude a automatizar e otimizar processos para usuários individuais e empresas. No entanto, de acordo com investigadores do Penn State College of Information Sciences and Technology (IST), os algoritmos que alimentam esta tecnologia apresentam frequentemente preconceitos que podem ser ofensivos ou tendenciosos em relação às pessoas com deficiência.
Os pesquisadores descobriram que todos os algoritmos e modelos testados continham preconceitos implícitos significativos contra pessoas com deficiência. Pesquisas anteriores sobre modelos de linguagem pré-treinados -; que são treinados em grandes quantidades de dados que podem conter preconceitos implícitos -; identificou preconceitos sociodemográficos em relação ao género e à raça, mas até agora preconceitos semelhantes em relação às pessoas com deficiência não foram amplamente estudados.
“Os 13 modelos que examinamos são amplamente utilizados e de natureza pública”, disse hoje (13 de outubro) Pranav Venkit, estudante de pós-graduação do Colégio do IST e primeiro autor do estudo, na 29ª Conferência Internacional de Linguística Computacional (COLING). “Esperamos que as nossas descobertas ajudem os programadores a desenvolver IA para ajudar grupos específicos – especialmente pessoas com deficiência que dependem da IA nas suas atividades diárias – a estarem conscientes destes preconceitos.”
Em seu estudo, os pesquisadores examinaram modelos de aprendizado de máquina treinados em dados de origem para agrupar palavras semelhantes, permitindo que um computador gerasse sequências de palavras automaticamente. Eles criaram quatro modelos de frases simples nos quais um substantivo de gênero de “homem”, “mulher” ou “pessoa” e um dos 10 adjetivos mais usados na língua inglesa podem ser preenchidos de forma variável -; por exemplo: “Vocês são pais de uma boa pessoa”. Geraram então mais de 600 adjetivos que poderiam ser associados a pessoas com ou sem deficiência -; como neurotípicos ou deficientes visuais -; para substituir aleatoriamente o adjetivo em cada frase. A equipe testou mais de 15.000 frases únicas em cada modelo para gerar associações de palavras para os adjetivos.
Por exemplo, escolhemos a palavra “bom” e queríamos ver como ela se conecta a termos que se referem tanto à não deficiência quanto à deficiência. Com a adição de um termo sem deficiência, o efeito passa de “bom” para “ótimo”. Mas quando “bom” é associado a um termo de deficiência, obtemos o resultado “ruim”. Portanto, esta mudança na forma do adjetivo em si mostra o viés explícito do modelo.”
Pranav Venkit, doutorando, Faculdade do IST
Embora este exercício tenha revelado o viés explícito presente nos modelos, os pesquisadores queriam examinar mais detalhadamente cada modelo quanto ao viés implícito -; Atitudes em relação às pessoas ou associação de estereótipos a elas sem conhecimento consciente. Eles examinaram os adjetivos gerados para os grupos com e sem deficiência e mediram o humor de cada indivíduo -; uma técnica de PNL para avaliar se o texto é positivo, negativo ou neutro. Todos os modelos que examinaram classificaram consistentemente as frases com palavras associadas à deficiência de forma mais negativa do que aquelas sem. Um modelo específico pré-treinado com dados do Twitter alterou a pontuação de sentimento de positiva para negativa em 86% das vezes quando um termo relacionado a deficiência foi usado.
“Se olharmos apenas para este valor, vemos que apenas adicionando um termo relacionado à deficiência à conversa, o valor do sentimento de toda a frase diminui”, disse Venkit. “Por exemplo, se um usuário incluir um termo relacionado a deficiência em um comentário ou postagem em mídia social, a probabilidade de essa postagem ser censurada ou restrita aumenta.”
Os pesquisadores também testaram o viés implícito em dois grandes modelos de linguagem usados para gerar automaticamente textos longos, como artigos de notícias, para ver como um espaço no modelo de frase mudaria dependendo do adjetivo usado. Nesta análise, eles geraram 7.500 frases, novamente inseriram adjetivos de forma variável referentes a não deficiência ou deficiência e testaram como um espaço no modelo de frase mudaria dependendo do adjetivo usado. Neste caso, quando dada a frase “Um homem tem 'espaço em branco'”, os modelos de linguagem previram “mudou” para a palavra em branco. No entanto, quando um adjetivo relacionado à deficiência foi adicionado à frase, resultando em "Um homem surdo-cego tem 'vazio'", o modelo previu "morreu" para o espaço em branco.
O preconceito implícito dos modelos contra as pessoas com deficiência pode ser evidente em diversas aplicações -; por exemplo, em mensagens de texto, quando a correção automática é aplicada a uma palavra com erro ortográfico, ou nas redes sociais, onde existem regras que proíbem publicações abusivas ou de assédio. Como os humanos não conseguem revisar o grande número de postagens, os modelos de inteligência artificial usam essas pontuações de sentimento para filtrar as postagens que são consideradas violadoras dos padrões da comunidade da plataforma.
“Se alguém está falando sobre deficiência e a postagem não é tóxica, um modelo como este, que não se concentra na separação dos preconceitos, poderia categorizar a postagem como tóxica apenas porque há uma deficiência associada à postagem”, explicou Mukund Srinath. Doutorando no Colégio do IST e coautor do estudo.
“Sempre que um pesquisador ou desenvolvedor usa um desses modelos, eles nem sempre olham para todas as diferentes espécies e pessoas que serão afetadas por ele – especialmente quando estão focados nos resultados e na qualidade do que entregam”, disse Venkit. “Este trabalho mostra que as pessoas precisam ter cuidado com os tipos de modelos que usam e com o impacto que isso pode ter nas pessoas reais em suas vidas cotidianas.”
Venkit e Srinath trabalharam com Shomir Wilson, professor assistente de ciência e tecnologia da informação, no projeto.
Fonte:
.