O modelo de IA, conhecido como VASA-1, pode criar um vídeo animado de uma pessoa falando com movimentos labiais sincronizados usando apenas uma única imagem e um clipe de áudio de voz.
Pesquisadores da Microsoft revelaram uma nova ferramenta artificial que pode criar avatares humanos altamente realistas. No entanto, eles não anunciaram um cronograma de lançamento devido a preocupações de que isso poderia encorajar a disseminação de conteúdo profundamente falso.
O modelo de IA, conhecido como VASA-1 (para “habilidades visuais-afetivas”), pode criar um vídeo animado de uma pessoa falando com movimentos labiais sincronizados usando uma única imagem e um clipe de áudio de voz.
Os investigadores da desinformação temem o uso indevido desenfreado de aplicações alimentadas por IA para criar imagens, vídeos e clipes de áudio “profundamente falsos” num ano eleitoral crucial.
“Nos opomos a qualquer comportamento que resulte na criação de conteúdo enganoso ou prejudicial sobre pessoas reais”, escrevem os autores do relatório VASA-1 publicado esta semana pela Microsoft Research Asia.
“Estamos dedicados ao desenvolvimento responsável da IA com o objetivo de melhorar o bem-estar humano”, afirmaram.
“Não temos planos de lançar uma demonstração online, API, produto, detalhes adicionais de implementação ou ofertas semelhantes até que estejamos confiantes de que a tecnologia está sendo usada de forma responsável e de acordo com os regulamentos relevantes.”
Segundo pesquisadores da Microsoft, a tecnologia pode capturar uma ampla gama de nuances faciais e movimentos naturais da cabeça.
“Isso abre caminho para interações em tempo real com avatares realistas que imitam o comportamento conversacional humano”, disseram os pesquisadores no artigo.
Segundo a Microsoft, o VASA pode trabalhar com fotos artísticas, músicas e idiomas que não sejam o inglês.
Os pesquisadores discutiram os benefícios potenciais da tecnologia, como o fornecimento de professores virtuais aos alunos ou apoio terapêutico aos necessitados.
“Não se destina a criar conteúdo com a intenção de enganar ou enganar”, disseram eles.
Segundo a postagem, os vídeos da VASA ainda possuem “artefatos” que revelam que foram gerados por inteligência artificial.
Ben Werdmuller, diretor de tecnologia da ProPublica, disse que ficaria “animado em saber que alguém está usando o aplicativo pela primeira vez para se representar em uma reunião Zoom”.
“Então, como foi? “Alguém percebeu?”, disse ele na rede social Threads.
O fabricante do ChatGPT, OpenAI, revelou em março uma ferramenta de clonagem de voz chamada Voice Engine, que pode essencialmente duplicar a fala de uma pessoa com base em uma amostra de áudio de 15 segundos.
No entanto, disse que estava abordando uma divulgação mais ampla “com cautela e consideração devido ao potencial de uso indevido de vozes sintéticas”.
No início deste ano, um conselheiro de um candidato presidencial democrata com poucas chances de vitória admitiu que estava por trás de uma chamada automática na qual se fazia passar por Joe Biden e ligava para os eleitores em New Hampshire. Ele queria chamar a atenção para os perigos da inteligência artificial.
Na ligação, parecia a voz de Biden instando as pessoas a não votarem nas eleições primárias do estado em janeiro. Isto despertou preocupação entre os especialistas que temem uma enxurrada de desinformação falsa e profunda alimentada por IA na corrida à Casa Branca de 2024.
Leia também: Week in Technology: um novo trailer de IA faz sua estreia