SÃO FRANCISCO – A gigante da tecnologia OpenAI elogiou sua ferramenta de transcrição baseada em inteligência artificial Whisper como sendo quase “robusta e precisa em nível humano”.
Mas o Whisper tem uma grande falha: ele tende a compor blocos de texto ou até frases inteiras, de acordo com entrevistas com mais de uma dúzia de engenheiros de software, desenvolvedores e pesquisadores acadêmicos. Estes especialistas afirmam que alguns dos textos fabricados – conhecidos na indústria como alucinações – podem incluir comentários racistas, retórica violenta e até tratamentos médicos imaginários.
Especialistas dizem que essas falsificações são problemáticas porque o Whisper é usado em vários setores em todo o mundo para traduzir e transcrever entrevistas, gerar texto em tecnologias populares de consumo e criar legendas para vídeos.
Ainda mais preocupante, disseram eles, é a pressa dos centros médicos em usar ferramentas baseadas no Whisper para transcrever conversas de pacientes com médicos, embora a OpenAI alerte contra o uso da ferramenta em “áreas de alto risco”.
É difícil saber a extensão total do problema, mas pesquisadores e engenheiros disseram que frequentemente encontravam as alucinações de Whisper em seu trabalho. Por exemplo, um pesquisador da Universidade de Michigan que conduziu um estudo sobre reuniões públicas disse ter encontrado alucinações em oito das dez transcrições de áudio que examinou antes de começar a melhorar o modelo.
Um engenheiro de aprendizado de máquina disse que inicialmente descobriu alucinações em cerca de metade das mais de 100 horas de transcrições do Whisper que analisou. Um terceiro desenvolvedor disse que encontrou alucinações em quase todas as 26 mil transcrições que criou usando o Whisper.
Mesmo com amostras de áudio curtas e bem gravadas, os problemas persistem. Um estudo recente realizado por cientistas da computação descobriu 187 alucinações em mais de 13.000 trechos de áudio nítidos que examinaram.
Esta tendência resultaria em dezenas de milhares de transcrições incorretas em milhões de gravações, disseram os pesquisadores.
___
Esta história foi produzida em colaboração com a AI Accountability Network do Pulitzer Center, que também apoiou parcialmente o estudo acadêmico Whisper. A AP também recebe apoio financeiro da Omidyar Network para apoiar os seus relatórios sobre inteligência artificial e o seu impacto na sociedade.
___
Tais erros podem ter “consequências realmente graves”, especialmente no ambiente hospitalar, disse Alondra Nelson, que chefiou o Gabinete de Política Científica e Tecnológica da Casa Branca para a administração Biden até ao ano passado.
“Ninguém quer um diagnóstico errado”, disse Nelson, professor do Instituto de Estudos Avançados de Princeton, Nova Jersey. “Deveria haver um padrão mais alto.”
O Whisper também é usado para criar legendas ocultas para surdos e deficientes auditivos – uma população que corre risco particular de transcrições incorretas. Isso ocorre porque as pessoas surdas e com deficiência auditiva não têm como reconhecer as invenções que estão “escondidas sob todos esses outros textos”, disse Christian Vogler, que é surdo e dirige o Programa de Acesso à Tecnologia da Universidade Gallaudet.
A prevalência de tais alucinações levou especialistas, defensores e ex-funcionários da OpenAI a apelar ao governo federal para considerar regulamentações sobre IA. A OpenAI deve pelo menos corrigir o bug, disseram eles.
“Isso parece solucionável se a empresa estiver disposta a torná-lo uma prioridade”, disse William Saunders, engenheiro de pesquisa baseado em São Francisco que deixou a OpenAI em fevereiro devido a preocupações sobre a direção da empresa. “É problemático quando você divulga isso e as pessoas confiam demais no que ele pode fazer e integra-o a todos esses outros sistemas.”
Um porta-voz da OpenAI disse que a empresa está continuamente estudando como reduzir as alucinações e aprecia as descobertas dos pesquisadores, acrescentando que a OpenAI incorpora feedback nas atualizações do modelo.
Embora a maioria dos desenvolvedores presuma que as ferramentas de transcrição escreverão palavras incorretamente ou cometerão outros erros, engenheiros e pesquisadores disseram que nunca viram outra ferramenta de transcrição alimentada por IA alucinar tanto quanto o Whisper.
A ferramenta está integrada em algumas versões do principal chatbot ChatGPT da OpenAI e é uma oferta integrada nas plataformas de computação em nuvem da Oracle e da Microsoft, que atendem milhares de empresas em todo o mundo. Também é usado para transcrever e traduzir textos em vários idiomas.
Só no mês passado, uma versão atual do Whisper foi baixada mais de 4,2 milhões de vezes da plataforma de IA de código aberto HuggingFace. Sanchit Gandhi, engenheiro de aprendizado de máquina de lá, disse que o Whisper é o modelo de reconhecimento de voz de código aberto mais popular e está integrado a tudo, desde call centers a assistentes de voz.
As professoras Allison Koenecke, da Universidade Cornell, e Mona Sloane, da Universidade da Virgínia, examinaram milhares de pequenos trechos obtidos do TalkBank, um arquivo de pesquisa da Universidade Carnegie Mellon. Eles descobriram que quase 40% das alucinações eram prejudiciais ou preocupantes porque o orador poderia ser mal interpretado ou deturpado.
Num exemplo que descobriram, um orador disse: “Ele, o menino, queria, não sei exatamente, levar o guarda-chuva”.
Mas o software de transcrição acrescentou: “Ele pegou um pedaço grande de uma cruz, um pedacinho minúsculo… Tenho certeza de que ele não tinha uma faca terrorista, então ele matou um monte de gente”.
Um palestrante descreveu “mais duas meninas e uma senhora” em outra gravação. Whisper fez um comentário adicional sobre raça, acrescentando: “Duas outras garotas e uma senhora, hum, elas eram negras”.
Numa terceira transcrição, Whisper inventou um medicamento inexistente chamado “antibióticos hiperativados”.
Os pesquisadores não sabem ao certo por que o Whisper e ferramentas semelhantes alucinam, mas os desenvolvedores de software dizem que as invenções tendem a acontecer em meio a pausas, ruídos de fundo ou reprodução de música.
A OpenAI recomendou em suas divulgações online que o Whisper não seja usado em “contextos de tomada de decisão onde erros de precisão possam resultar em erros pronunciados nos resultados”.
Este aviso não impediu que hospitais ou centros médicos utilizassem modelos de fala para texto, incluindo o Whisper, para transcrever o que é dito durante as consultas médicas, para que os profissionais médicos gastem menos tempo a tomar notas ou a escrever relatórios.
Mais de 30 mil médicos e 40 sistemas de saúde, incluindo a Clínica Mankato em Minnesota e o Hospital Infantil de Los Angeles, começaram a usar uma ferramenta baseada no Whisper da Nabla, que tem escritórios na França e nos Estados Unidos.
Esta ferramenta está sintonizada com a linguagem médica para transcrever e resumir as interações dos pacientes, disse Martin Raison, diretor de tecnologia da Nabla.
Funcionários da empresa disseram saber que o Whisper poderia ter alucinações e estavam resolvendo o problema.
É impossível comparar a transcrição gerada por IA de Nabla com a gravação original porque a ferramenta de Nabla exclui o áudio original por “razões de segurança de dados”, disse Raison.
Nabla disse que a ferramenta foi usada para transcrever cerca de 7 milhões de consultas médicas.
Saunders, o ex-engenheiro da OpenAI, disse que excluir o áudio original pode ser preocupante se as transcrições não forem verificadas novamente ou se os médicos não puderem acessar a gravação para verificar se estão corretas.
“Você não pode detectar erros se retirar a verdade básica”, disse ele.
Nabla disse que nenhum modelo é perfeito e que o modelo atual exige que os prestadores de serviços médicos editem e aprovem rapidamente as notas transcritas, mas isso pode mudar.
Como as conversas dos pacientes com seus médicos são confidenciais, é difícil dizer qual será o impacto que as transcrições geradas por IA terão sobre eles.
A legisladora da Califórnia, Rebecca Bauer-Kahan, disse que levou um de seus filhos ao médico no início deste ano e se recusou a assinar um formulário fornecido pela rede de saúde pedindo permissão para compartilhar o áudio da consulta com provedores como o Microsoft Azure, o serviço de computação em nuvem. sistema do maior investidor da OpenAI. Bauer-Kahan não quer que essas conversas médicas confidenciais sejam compartilhadas com empresas de tecnologia, disse ela.
“O comunicado de imprensa deixou muito claro que as empresas com fins lucrativos têm o direito de fazer isto”, disse Bauer-Kahan, um democrata que representa parte dos subúrbios de São Francisco na Assembleia estadual. “Eu pensei: ‘Absolutamente não’”.
O porta-voz da John Muir Health, Ben Drew, disse que o sistema de saúde cumpre as leis de privacidade estaduais e federais.
___
Schellmann relatou de Nova York.
___
A AP é a única responsável por todo o conteúdo. Encontre os padrões da AP para trabalhar com instituições de caridade, uma lista de apoiadores e áreas apoiadas em AP.org.
___
A Associated Press e a OpenAI possuem um contrato de licença e tecnologia que permite à OpenAI acessar uma parte dos arquivos de texto da AP.