Advogados do The New York Times e do Daily News, que estão processando a OpenAI por supostamente copiar seus trabalhos sem permissão para treinar seus modelos de IA, dizem que os engenheiros da OpenAI excluíram acidentalmente dados que podem ter sido usados no caso, sendo relevantes.
No início deste outono, a OpenAI concordou em fornecer duas máquinas virtuais para que os advogados do The Times e do Daily News pudessem pesquisar seu conteúdo protegido por direitos autorais em seus conjuntos de treinamento de IA. (Máquinas virtuais são computadores baseados em software que residem no sistema operacional de outro computador e são frequentemente usados para testes, backup de dados e execução de aplicativos.) Em uma carta, os advogados dos editores dizem que eles e os especialistas contratados gastaram dinheiro desde 1º de novembro. , pesquisei os dados de treinamento do OpenAI por mais de 150 horas.
Mas em 14 de novembro, os engenheiros da OpenAI excluíram todos os dados de pesquisa de editores armazenados em uma das máquinas virtuais, de acordo com a carta acima mencionada apresentada na quarta-feira no Tribunal Distrital dos EUA para o Distrito Sul de Nova York.
A OpenAI tentou recuperar os dados – e obteve grande sucesso. No entanto, como a estrutura das pastas e os nomes dos arquivos foram “irremediavelmente” perdidos, os dados recuperados “não podem ser usados para determinar onde os artigos copiados dos autores das notícias foram usados para construir”. [OpenAI’s] Modelos”, diz a carta.
“Os demandantes de notícias foram forçados a recriar seu trabalho do zero, exigindo horas de trabalho e tempo de processamento de computador significativos”, escreveram os advogados do The Times e do Daily News. “Os demandantes da notícia souberam ontem que os dados recuperados eram inutilizáveis e que o trabalho de seus especialistas e advogados teria que ser repetido por uma semana inteira, razão pela qual este documento suplementar está sendo arquivado hoje.”
O advogado dos demandantes deixa claro que eles não têm motivos para acreditar que a exclusão foi intencional. No entanto, eles dizem que o incidente ressalta que a OpenAI está “na melhor posição para pesquisar seus próprios conjuntos de dados” e procurar conteúdo potencialmente infrator usando suas próprias ferramentas.
Um porta-voz da OpenAI não quis comentar.
Mas na noite de sexta-feira, 22 de novembro, o advogado da OpenAI apresentou uma resposta à carta enviada na quarta-feira pelos advogados do The Times e do Daily News. Na sua resposta, os advogados da OpenAI negaram claramente que a OpenAI tenha eliminado qualquer prova e, em vez disso, alegaram que os demandantes eram responsáveis por uma configuração incorreta do sistema que levou a um problema técnico.
“Os demandantes solicitaram uma mudança de configuração em uma das várias máquinas fornecidas pela OpenAI para pesquisar conjuntos de dados de treinamento”, escreveu o advogado da OpenAI. “No entanto, a implementação da mudança solicitada pelos demandantes resultou na remoção da estrutura de pastas e de alguns nomes de arquivos de um disco rígido – uma unidade destinada a ser usada como cache temporário… Em qualquer caso, não há razão para acreditar que todos os arquivos estavam presentes.” realmente perdidos.”
Neste e noutros casos, a OpenAI afirmou que os modelos de formação que utilizam dados publicamente disponíveis – incluindo artigos do The Times e do Daily News – constituem utilização justa. Em outras palavras, ao desenvolver modelos como o GPT-4o, que “aprendem” com bilhões de exemplos de e-books, ensaios e muito mais para gerar textos que soam humanos, a OpenAI acredita que nenhum licenciamento ou outro pagamento é necessário nos exemplos – mesmo que ganha dinheiro com esses modelos.
No entanto, a OpenAI assinou acordos de licenciamento com um número crescente de novos editores, incluindo a Associated Press, o proprietário do Business Insider, Axel Springer, o Financial Times, o controlador da People, Dotdash Meredith, e a News Corp. A OpenAI se recusou a especificar publicamente os termos desses acordos, mas um parceiro de conteúdo, Dotdash, está recebendo pelo menos US$ 16 milhões por ano.
A OpenAI não confirmou nem negou que treinou seus sistemas de IA em obras específicas protegidas por direitos autorais sem permissão.
Atualização: Adicionada a resposta da OpenAI às alegações.