Se o seu mercado-alvo tem 22 idiomas oficiais e as pessoas falam mais de 19.000 dialetos, faz sentido oferecer um chatbot de IA somente texto que funcione melhor em alguns idiomas?
Essa é a questão que a startup indiana de IA Sarvam está trabalhando para resolver. Na terça-feira, lançou uma série de ofertas, incluindo um bot de IA controlado por voz que suporta mais de 10 idiomas indianos. A ideia é que as pessoas no país prefiram falar com um modelo de IA na sua própria língua do que conversar com ele por texto. A startup também está lançando um modelo de linguagem pequena, uma ferramenta de IA para advogados e um modelo de linguagem de áudio.
“As pessoas preferem falar na sua própria língua. É extremamente difícil digitar em idiomas indianos hoje em dia”, disse Vivek Raghavan, cofundador da Sarvam AI, ao TechCrunch.
A startup com sede em Bengaluru, que visa principalmente empresas e negócios, oferece seus bots de IA controlados por voz para uma variedade de setores, especialmente aqueles que dependem do suporte ao cliente. Citou como exemplo um de seus clientes: Sri Mandir, uma startup que oferece conteúdo religioso, usa os agentes de IA da Sarvam para aceitar pagamentos e já processou mais de 270.000 transações até agora.
A empresa disse que seus agentes de voz de IA podem ser implantados no WhatsApp e em um aplicativo, e podem até funcionar com chamadas de voz tradicionais.
Com o apoio do Peak XV e Lightspeed, a Sarvam planeja definir o preço de seus agentes de IA a partir de ₹ 1 (aproximadamente 1 centavo) por minuto de uso.
A startup constrói seus agentes de IA controlados por voz em um modelo de linguagem básico e de pequena escala chamado Sarvam 2B, que é treinado em um conjunto de dados de 4 trilhões de tokens. Segundo Raghavan, o modelo é treinado inteiramente em dados sintéticos.
Os especialistas em IA muitas vezes aconselham cautela ao usar dados sintéticos – essencialmente dados gerados por um grande modelo de linguagem que visa replicar dados do mundo real – para treinar outros modelos de IA, já que os LLMs tendem a ter alucinações e inventar informações que podem não ser precisas. O treinamento de modelos de IA com base em tais dados pode acabar exacerbando essas imprecisões.
Raghavan disse que Sarvam decidiu usar dados sintéticos porque a disponibilidade de conteúdo em idioma indiano na web aberta é extremamente limitada. A startup desenvolveu modelos para limpar e melhorar os dados que foram inicialmente usados para gerar os conjuntos de dados sintéticos, acrescentou.
O fundador afirmou que o Sarvam 2B custará um décimo de qualquer valor comparável na indústria. A startup está disponibilizando o modelo como código aberto e espera que a comunidade o desenvolva.
“Embora os grandes modelos de linguagem básica sejam muito interessantes, com modelos de linguagem pequena você pode obter uma experiência melhor, mais específica, com menor custo e menor latência”, disse Raghavan. “Se você quiser fazer uma ou duas consultas em uma semana ou um mês, você deve usar os modelos de linguagem grandes. Mas para casos de uso que exigem milhões de interações diárias, acho que modelos menores são mais adequados.”
A startup também está lançando um modelo de fala em áudio chamado Shuka, baseado em seu decodificador de áudio Saaras v1 e Metas Llama3-8B Instruct. Este modelo também é de código aberto, permitindo que os desenvolvedores usem a tradução da startup, TTS e outros módulos para construir interfaces de voz.
E há outro produto chamado “A1” – uma bancada de IA generativa para advogados que pode consultar regulamentos, criar documentos, editá-los e extrair dados.
Sarvam faz parte de um pequeno grupo de startups indianas que defendem casos de utilização alinhados com os interesses do país e apoiam os esforços do governo para desenvolver a sua própria infraestrutura de IA personalizada.
Os governos de todo o mundo procuram cada vez mais uma “IA soberana” – infra-estruturas de IA que são desenvolvidas e controladas a nível nacional. O objectivo ostensivo de tais esforços é proteger a privacidade, estimular o crescimento económico e adaptar o desenvolvimento da IA ao contexto cultural relevante. Os EUA e a China são atualmente os que mais investem nesta área, e a Índia está a seguir o exemplo com o seu programa “IndiaAI” e modelos específicos de línguas.
Uma das iniciativas do programa IndiaAI chama-se IndiaAI Compute Capacity e prevê a construção de um supercomputador com pelo menos 10.000 GPUs. Um dos modelos desenvolvidos, denominado Bhashini, visa democratizar o acesso aos serviços digitais em diversas línguas indianas.
Raghavan disse que sua startup está pronta para contribuir com o programa IndiaAI. “Se surgir a oportunidade, trabalharemos com o governo”, disse ele na entrevista.