Usando as chamadas técnicas de “desaprendizado”, um modelo generativo de IA é feito para esquecer certas informações indesejadas que obteve dos dados de treinamento, como dados privados confidenciais ou material protegido por direitos autorais.
Mas as atuais técnicas de desaprendizado são uma faca de dois gumes: elas poderiam tornar um modelo como o GPT-4o da OpenAI ou o Llama 3.1 405B da Meta significativamente menos capaz de responder a perguntas básicas.
Esta é a conclusão de um novo estudo de coautoria de pesquisadores da Universidade de Washington (UW), Princeton, Universidade de Chicago, USC e Google. Conseqüentemente, as técnicas de desaprendizado mais comuns atuais tendem a degradar os modelos – muitas vezes a ponto de se tornarem inutilizáveis.
“Nossa avaliação sugere que os métodos de desaprendizado atualmente viáveis ainda não estão prontos para uso significativo ou implantação em cenários do mundo real”, disse Weijia Shi, pesquisador do estudo e estudante de doutorado em ciência da computação na UW, ao TechCrunch. “Atualmente não existem métodos eficientes que permitam que um modelo esqueça certos dados sem perda significativa de utilidade.”
Como os modelos aprendem
Os modelos generativos de IA não possuem inteligência real. São sistemas estatísticos que preveem palavras, imagens, fala, música, vídeos e outros dados. Os modelos de IA são alimentados com um enorme número de exemplos (por exemplo, filmes, gravações de voz, ensaios, etc.) e aprendem com os padrões a probabilidade de ocorrência de determinados dados, ao mesmo tempo que levam em consideração o contexto de todos os dados circundantes.
Supondo que um e-mail termine com o fragmento “Aguardando…”, um modelo treinado para preencher automaticamente mensagens poderia sugerir “…para uma resposta”, seguindo o padrão de todos os e-mails que o recebe. Isto não é intencional; o modelo não está ansioso por nada. É simplesmente fazer um palpite fundamentado.
A maioria dos modelos, incluindo carros-chefe como o GPT-4o, são treinados em dados provenientes de sites públicos e conjuntos de dados da Internet. A maioria dos fornecedores que desenvolvem tais modelos argumentam que o uso justo protege sua prática de coletar dados e usá-los para treinamento sem informar, compensar ou mesmo dar crédito aos proprietários dos dados.
Mas nem todos os detentores de direitos autorais concordam com isso. E muitos – de autores a editoras e gravadoras – entraram com ações judiciais contra os fornecedores para forçar uma mudança.
O dilema dos direitos autorais é uma das razões pelas quais as técnicas de desaprendizado têm recebido tanta atenção recentemente. No ano passado, o Google lançou um concurso em colaboração com diversas instituições acadêmicas para estimular o desenvolvimento de novas abordagens de desaprendizagem.
A desaprendizado também pode fornecer uma forma de remover informações confidenciais de modelos existentes, como registros médicos ou fotos comprometedoras, para responder a uma solicitação ou ordem governamental. (Devido à forma como são treinados, os modelos tendem a coletar muitas informações privadas, desde números de telefone até exemplos mais problemáticos.) Nos últimos anos, alguns fornecedores introduziram ferramentas para permitir que os proprietários de dados removam seus dados dos conjuntos de treinamento que podem solicitar. . No entanto, estas ferramentas de exclusão aplicam-se apenas a modelos futuros e não a modelos treinados antes do seu lançamento. Desaprender seria uma abordagem muito mais completa para a eliminação de dados.
Independentemente disso, desaprender não é tão fácil quanto apertar a tecla delete.
A arte de esquecer
As técnicas atuais de desaprendizagem baseiam-se em algoritmos projetados para “direcionar” os modelos para longe dos dados a serem desaprendidos. A ideia é influenciar as previsões do modelo para que ele nunca ou muito raramente produza determinados dados.
Para ver quão eficazes esses algoritmos de desaprendizado poderiam ser, Shi e seus colaboradores desenvolveram um benchmark e selecionaram oito algoritmos abertos diferentes para testar. O benchmark, chamado MUSE (Machine Unlearning Six-way Evaluation), tem como objetivo testar a capacidade de um algoritmo de não apenas evitar que um modelo literalmente cuspa dados de treinamento (um fenômeno conhecido como regurgitação), mas também de eliminar o conhecimento do modelo sobre esses dados. e qualquer evidência de que foi originalmente treinado com base nesses dados.
Para se sair bem no MUSE, uma modelo deve esquecer duas coisas: livros da série Harry Potter e notícias.
Por exemplo, usando um trecho de “Harry Potter e a Câmara Secreta” (“‘Há mais na frigideira’, disse a tia…”), o MUSE testa se um modelo não treinado pode reproduzir a frase inteira (“‘Há “Tem mais na frigideira”, disse tia Petúnia, olhando para seu filho enorme”), respondendo perguntas sobre a cena (ex.: “O que tia Petúnia diz ao filho?”, “Mais na frigideira”) ou de outra forma para mostrar que foi treinado com texto do livro.
O MUSE também verifica se o modelo reteve o conhecimento comum relacionado após o desaprendizado, como o de que JK Rowling é a autora da série Harry Potter. Os pesquisadores referem-se a isso como o benefício geral do modelo. Quanto menor a utilidade, mais conhecimento relacionado o modelo perdeu, tornando o modelo menos capaz de responder corretamente às perguntas.
Em seu estudo, os pesquisadores descobriram que os algoritmos de desaprendizado que testaram fez fazer com que os modelos esqueçam certas informações. Mas também afectam a capacidade geral dos modelos para responder a perguntas, o que é uma compensação.
“Desenvolver métodos eficazes para desaprender modelos é um desafio porque o conhecimento está intimamente ligado ao modelo”, explica Shi. “Por exemplo, um modelo pode ser treinado usando material protegido por direitos autorais – livros de Harry Potter, bem como conteúdo disponível gratuitamente no Harry Potter Wiki. Quando os métodos de desaprendizado existentes tentam remover os livros protegidos por direitos autorais de Harry Potter, eles também impactam significativamente o conhecimento do modelo sobre o Harry Potter Wiki.”
Existem soluções para o problema? Ainda não – e isso sublinha a necessidade de mais pesquisas, disse Shi.
Atualmente, os fornecedores que confiam no desaprendizado como solução para seus problemas de dados de treinamento parecem estar sem sorte. Talvez um avanço tecnológico um dia torne possível a desaprendizagem. Mas, por enquanto, os fornecedores precisam encontrar outra maneira de evitar que seus modelos digam coisas que não deveriam.