Os modelos atuais de IA realmente lembram, pensam, planejam e raciocinam da mesma forma que um cérebro humano faria? Alguns laboratórios de IA querem que você acredite, mas de acordo com o cientista-chefe de IA da Meta, Yann LeCun, a resposta é não. No entanto, ele acredita que poderemos atingir este objectivo em cerca de uma década se seguirmos um novo método chamado “modelo mundial”.
No início deste ano, a OpenAI lançou um novo recurso chamado “Armazenamento” que permite ao ChatGPT “lembrar” suas conversas. A última geração de modelos da startup, o1, exibe a palavra “pensamento” ao gerar resultados, e a OpenAI diz que os mesmos modelos são capazes de “raciocínio complexo”.
Tudo isso parece que estamos muito próximos do AGI. No entanto, em uma palestra recente no Hudson Forum, LeCun desafiou os otimistas da IA, como o fundador da xAI, Elon Musk, e o cofundador do Google DeepMind, Shane Legg, que sugerem que a IA em nível humano é iminente.
“Precisamos de máquinas que entendam o mundo; [machines] que possam lembrar coisas, que tenham intuição, que tenham bom senso, coisas que possam pensar e planejar no mesmo nível dos humanos”, disse LeCun durante a palestra. “Ao contrário do que você pode ter ouvido de algumas das pessoas mais entusiasmadas, os atuais sistemas de IA não são capazes disso.”
LeCun diz que os grandes modelos de linguagem atuais, como aqueles que alimentam o ChatGPT e o Meta AI, estão longe de ser uma “IA de nível humano”. A humanidade poderia estar “anos ou décadas” longe de alcançar algo assim, disse ele mais tarde. (No entanto, isso não impede que seu chefe, Mark Zuckerberg, pergunte quando a AGI acontecerá.)
A razão para isso é simples: esses LLMs funcionam prevendo o próximo token (geralmente algumas letras ou uma palavra curta), e os modelos de imagem/vídeo atuais prevêem o próximo pixel. Em outras palavras, os modelos de linguagem são preditores unidimensionais e os modelos de imagem/vídeo de IA são preditores bidimensionais. Esses modelos se tornaram muito bons em fazer previsões em suas respectivas dimensões, mas não entendem realmente o mundo tridimensional.
Por causa disso, os sistemas modernos de IA não conseguem realizar tarefas simples que a maioria dos humanos consegue realizar. LeCun observa como as pessoas aprendem a limpar a mesa de jantar aos 10 anos e a dirigir um carro aos 17 – e aprendem ambos em poucas horas. Mas mesmo os sistemas de IA mais avançados do mundo, baseados em milhares ou milhões de horas de dados, não conseguem funcionar de forma fiável no mundo físico.
Para enfrentar tarefas mais complexas, LeCun sugere que precisamos criar modelos tridimensionais que possam perceber o mundo que nos rodeia, focando num novo tipo de arquitetura de IA: modelos mundiais.
“Um modelo mundial é o seu modelo mental de como o mundo se comporta”, explicou ele. “Você pode imaginar uma sequência de ações que poderá realizar, e seu modelo de mundo lhe permitirá prever qual impacto a sequência de ações terá no mundo.”
Considere o “modelo mundial” em sua própria cabeça. Por exemplo, imagine que você vê um quarto bagunçado e quer limpá-lo. Você pode imaginar que ajudaria recolher todas as roupas e guardá-las. Você não precisa tentar vários métodos ou aprender como limpar um ambiente. Seu cérebro observa o espaço tridimensional e cria um plano de ação para atingir seu objetivo na primeira tentativa. Este plano de ação é o segredo que os modelos mundiais de IA prometem.
Parte da vantagem é que os modelos mundiais podem acomodar significativamente mais dados do que os LLMs. Isso também os torna computacionalmente intensivos, e é por isso que os provedores de nuvem estão disputando parcerias com empresas de IA.
Os modelos mundiais são a grande ideia que vários laboratórios de IA estão actualmente a perseguir, e o termo está rapidamente a tornar-se a próxima palavra da moda para atrair capital de risco. Um grupo de pesquisadores de IA altamente respeitados, incluindo Fei-Fei Li e Justin Johnson, acaba de arrecadar US$ 230 milhões para sua startup World Labs. A “madrinha da IA” e a sua equipa também estão convencidas de que os modelos mundiais permitirão sistemas de IA significativamente mais inteligentes. A OpenAI também descreve seu inédito gerador de vídeo Sora como um modelo mundial, mas não entra em detalhes.
LeCun delineou uma ideia para usar modelos mundiais para criar IA de nível humano em um artigo de 2022 sobre “IA objetiva”, mas aponta que o conceito tem mais de 60 anos. Em suma, uma representação básica do mundo (por exemplo, um vídeo de um quarto sujo) e uma memória são alimentadas num modelo de mundo. O modelo mundial utiliza então esta informação para prever como será o mundo. Em seguida, você fornece metas ao modelo mundial, incluindo um estado alterado do mundo que deseja alcançar (por exemplo, uma sala limpa), bem como grades de proteção para garantir que o modelo não prejudique as pessoas para atingir uma meta (não matar). Estou arrumando meu quarto, por favor). Então o modelo mundial encontra uma sequência de ações para atingir esses objetivos.
De acordo com LeCun, o laboratório de pesquisa de IA de longo prazo FAIR, ou Fundamental AI Research, da Meta, está trabalhando ativamente no desenvolvimento de IA objetiva e modelos mundiais. FAIR trabalhou anteriormente em IA para os próximos produtos da Meta, mas LeCun diz que o laboratório mudou nos últimos anos para se concentrar exclusivamente em pesquisas de IA de longo prazo. LeCun diz que a FAIR nem usa LLMs atualmente.
Os modelos mundiais são uma ideia fascinante, mas LeCun diz que não fizemos muito progresso na transformação destes sistemas em realidade. Do jeito que as coisas estão, há muitos problemas muito difíceis de resolver, e ele diz que são certamente mais complicados do que pensamos.
“Levará anos para que tudo esteja pronto e funcionando aqui, se não uma década”, disse Lecun. “Mark Zuckerberg fica me perguntando quanto tempo vai demorar.”