Texto para fala aprimorado do Gemini

O Google exibiu avanços significativos nas capacidades de texto para fala (TTS) de sua IA Gemini em sua recente conferência para desenvolvedores I/O. O novo recurso, construído com saída de áudio nativa, promete uma experiência conversacional mais natural e expressiva.

Conversa multilíngue perfeita

Um destaque principal é a capacidade do sistema de alternar perfeitamente entre mais de 24 idiomas usando uma única voz consistente. As demonstrações mostraram a IA fazendo a transição suave entre inglês e hindi, mantendo um nível notável de consistência vocal que aprimora a ilusão de um único "locutor".

Além das palavras: nuances expressivas

O Google enfatiza a expressividade aumentada e a entrega com nuances do novo TTS. A voz da IAsoou consideravelmente menos robótica, incorporando inflexões e tons mais sutis para criar uma experiência auditiva mais envolvente. Embora a demonstração incluísse um modo sussurro, sua implementação exige maior escrutínio, considerando o feedback do usuário.

Acessibilidade e disponibilidade

Essa tecnologia TTS aprimorada agora está acessível por meio da API Gemini. Simultaneamente, uma prévia da API Gemini Live com diálogo de áudio nativo está disponível. Esses avanços destacam o compromisso contínuo do Google em melhorar seus serviços de IA, tornando-os mais poderosos e fáceis de usar.

Conversa multilíngue perfeita

Além das palavras: nuances expressivas

Acessibilidade e disponibilidade

1 Imagem de IA Texto para Fala: