
Dia da Nari Labs: Novo Modelo de Voz IA Compete com o NotebookLM
O campo da fala sintética está a crescer rapidamente, com inúmeros intervenientes a competir pelo domínio. Entre os mais recentes participantes está o "Dia", um modelo de IA desenvolvido pela Nari Labs, fundado por dois estudantes universitários. O Dia tem como objetivo fornecer aos utilizadores maior controlo sobre as vozes geradas e a personalização de scripts, inspirando-se no NotebookLM do Google.
Toby Kim, um dos cofundadores, mencionou que eles começaram a explorar a IA de fala apenas três meses antes. Utilizando o programa TPU Cloud do Google, que oferece acesso gratuito aos chips de IA TPU, eles treinaram o Dia, um modelo de 1,6 mil milhões de parâmetros capaz de gerar diálogos a partir de scripts. Os utilizadores podem ajustar os tons dos oradores e incorporar sinais não verbais, como tosse e risos.
Acessibilidade e Funcionalidade
O Dia está disponível em plataformas como o Hugging Face e o GitHub, tornando-o acessível a um público vasto. Pode operar na maioria dos PCs modernos equipados com pelo menos 10 GB de VRAM. Embora gere vozes aleatórias por defeito, os utilizadores podem guiá-lo com descrições de estilo ou mesmo clonar vozes.
Testes iniciais demonstraram que o Dia é bastante eficaz, gerando prontamente conversas bidirecionais sobre vários tópicos. A qualidade da voz é competitiva com as ferramentas existentes, e a funcionalidade de clonagem de voz destaca-se pela sua facilidade de utilização.
Considerações Éticas
Como muitos geradores de voz, o Dia carece de salvaguardas robustas contra a utilização indevida. Isto levanta preocupações sobre o potencial de criação de desinformação ou gravações fraudulentas. A Nari Labs reconhece estes riscos e desencoraja a utilização prejudicial, mas declina a responsabilidade pela utilização indevida. Além disso, os dados utilizados para treinar o Dia não foram divulgados, levantando questões sobre uma potencial violação de direitos de autor, uma prática comum, mas juridicamente ambígua, no desenvolvimento de IA.
Planos Futuros
A Nari Labs prevê a construção de uma plataforma de voz sintética com funcionalidades sociais em cima do Dia e de futuros modelos maiores. Também planeiam lançar um relatório técnico e expandir o suporte de idiomas para além do inglês.
1 Vídeo de Modelo de Voz IA:
Fonte: TechCrunch