DeepMind, organização de pesquisa de IA do Google, revelou um modelo que pode criar uma variedade “infinita” de mundos 3D jogáveis.
O modelo, chamado Genie 2 – o sucessor do Genie da DeepMind, lançado no início deste ano – pode gerar uma cena interativa em tempo real (por exemplo, “Um robô humanóide fofo na floresta”) a partir de uma única imagem e uma descrição de texto. Nesse aspecto, é semelhante aos modelos desenvolvidos pela empresa World Labs de Fei-Fei Li e pela empresa israelense Decart.
A DeepMind afirma que o Genie 2 pode criar uma “grande variedade de mundos 3D ricos”, incluindo mundos onde os usuários podem realizar ações como pular e nadar usando um mouse ou teclado. O modelo, treinado em vídeos, é capaz de simular interações de objetos, animações, iluminação, física, reflexos e comportamento de “NPC”.
Muitas das simulações do Genie 2 parecem videogames AAA – e a razão pode muito bem ser que os dados de treinamento do modelo incluem playthroughs de jogos populares. Mas a DeepMind, como muitos laboratórios de IA, não quis revelar muitos detalhes sobre seus métodos de coleta de dados, provavelmente por razões competitivas.
É de se perguntar sobre o impacto na propriedade intelectual. Como subsidiária do Google, a DeepMind tem acesso total ao YouTube, e o Google indicou anteriormente que receberá permissão para usar vídeos do YouTube para treinamento de modelos em seus termos de serviço. Mas será que o Genie 2 cria essencialmente cópias não autorizadas dos jogos que “viu”? Os tribunais provavelmente terão que decidir isso.
Genie 2 pode produzir mundos consistentes com perspectivas variadas, como visualizações em primeira pessoa e isométricas por até um minuto, com a maioria durando de 10 a 20 segundos.
“O Genie 2 responde de forma inteligente às ações realizadas pressionando teclas no teclado, identificando o personagem e movendo-o corretamente”, explicou DeepMind em uma postagem no blog. “Por exemplo, nosso modelo [can] Descubra que as teclas de seta devem mover um robô, não árvores ou nuvens.”
A maioria dos modelos como o Genie 2 – modelos de mundo, por assim dizer – podem simular jogos e ambientes 3D, mas com artefatos, consistência e problemas de alucinação. O simulador de Minecraft da Decart, Oasis, por exemplo, tem baixa resolução e rapidamente “esquece” a disposição dos níveis.
No entanto, o Genie 2 pode lembrar partes de uma cena simulada que não são visíveis e reproduzi-las com precisão quando se tornarem visíveis novamente, afirma DeepMind. (Os modelos do World Labs também podem fazer isso.)
Bem, jogos feitos com Genie 2 não seriam tão divertidos. Se o seu progresso fosse excluído a cada minuto, isso enganaria a todos. Portanto, a DeepMind posiciona o modelo mais como uma ferramenta de pesquisa e criatividade – uma ferramenta para prototipar “experiências interativas” e avaliar agentes de IA.
“Graças aos recursos de generalização fora de distribuição do Genie 2, a arte conceitual e os desenhos podem ser transformados em ambientes totalmente interativos”, escreveu DeepMind. “E ao usar o Genie 2 para criar rapidamente ambientes ricos e diversificados para agentes de IA, nossos pesquisadores podem gerar tarefas de avaliação que os agentes ainda não viram durante o treinamento.”
DeepMind diz que embora o Genie 2 ainda esteja em seus estágios iniciais, o laboratório espera que ele seja um componente chave no desenvolvimento dos agentes de IA do futuro.
O Google investiu cada vez mais recursos em modelos mundiais que prometem ser o próximo grande sucesso em IA. Em outubro, a DeepMind contratou Tim Brooks, que liderou o desenvolvimento do gerador de vídeo Sora da OpenAI, para trabalhar em tecnologias de geração de vídeo e simuladores mundiais.