
Texto para fala aprimorado do Gemini
O Google exibiu avanços significativos nas capacidades de texto para fala (TTS) de sua IA Gemini em sua recente conferência para desenvolvedores I/O. O novo recurso, construído com saída de áudio nativa, promete uma experiência conversacional mais natural e expressiva.
Conversa multilíngue perfeita
Um destaque principal é a capacidade do sistema de alternar perfeitamente entre mais de 24 idiomas usando uma única voz consistente. As demonstrações mostraram a IA fazendo a transição suave entre inglês e hindi, mantendo um nível notável de consistência vocal que aprimora a ilusão de um único "locutor".
Além das palavras: nuances expressivas
O Google enfatiza a expressividade aumentada e a entrega com nuances do novo TTS. A voz da IAsoou consideravelmente menos robótica, incorporando inflexões e tons mais sutis para criar uma experiência auditiva mais envolvente. Embora a demonstração incluísse um modo sussurro, sua implementação exige maior escrutínio, considerando o feedback do usuário.
Acessibilidade e disponibilidade
Essa tecnologia TTS aprimorada agora está acessível por meio da API Gemini. Simultaneamente, uma prévia da API Gemini Live com diálogo de áudio nativo está disponível. Esses avanços destacam o compromisso contínuo do Google em melhorar seus serviços de IA, tornando-os mais poderosos e fáceis de usar.
1 Imagem de IA Texto para Fala:

Fonte: Engadget