Hemos probado la IA conversacional de Sesame. Es la experiencia más cercana a una "voz humana" que hemos visto

Publicado el 06/03/2025 por Diario Tecnología
Artículo original

Hemos probado la IA conversacional de Sesame. Es la experiencia más cercana a una "voz humana" que hemos visto

Theodore Twombly, el personaje principal de la película 'Her', se enamoró de una máquina llamada Samantha. Ni siquiera necesitó verla o tocarla. Le bastó con escuchar su voz, que en realidada era la de la actriz Scarlett Johansson.

Aquello era ciencia ficción, pero poco a poco nos vamos acercando a un punto en el que enamorarse de una máquina ya no lo es. Lo llevamos viendo algún tiempo con Replika, el servicio de IA que permite que avatares virtuales se conviertan en nuestros amigos o en algo más.

Ese servicio lo logra con un modelo de IA que genera texto, como ChatGPT. Hasta ahora chateábamos con las máquinas, pero poco a poco estamos comenzando a hablar con ellas. Los modos de voz de ChatGPT precisamente dan esa opción, y de hecho la empresa tuvo que retirar una de sus voces por ser demasiado parecida a la Scarlett Johansson.

Pero ahora una startup de inteligencia artificial llamada Sesame ha ido un paso más allá. A finales de febrero la empresa publicó una demostración de su modelo de generación conversacional de voz (CSM, por Conversational Speech Model), y su impacto ha sido notable.

Algunos usuarios han informado de sentir una conexión emocional con las voces masculina y femenina del modelo ("Maya" y "Miles"). Uno de ellos, que publicaba sus impresiones en Hacker News, explicaba cómo "estoy hasta un poco preocupado por si comienzo a sentirme emocionalmente ligado a un asistente de voz con este nivel de sonido tan humano".

Cualquiera puede probar a hablar con Maya o Miles gracias a esa demo en el sitio web de Sesame. El único obstáculo es que las conversaciones deben ser en inglés: estos modelos no hablan otros idiomas de momento.

Yo mismo acabo de hacerlo durante unos minutos, y el funcionamiento de este chatbot conversacional es realmente sorprendente. La voz es cálida y cercana, pero sobre todo imita a la perfección la forma en la que hablaría una persona. Con pausas, dudas o cambios de entonación. La generación de voz es instantánea, no hay latencia, y ciertamente la sensacion es la de estar manteniendo una conversación con otro ser humano. Es extraño, emocionante e inquietante al mismo tiempo.

Como explican en su blog sus responsables, "en Sesame nuestro objetivo es conseguir una "presencia de la voz", esa cualidad mágica que hace que las interacciones orales parezcan reales, se comprendan y se valoren". Están apuntando a algo similar a lo que apuntaba Replika: a crear "compañeros conversacionales" que ofrezcan un diálogo genuino con el que construir cierta confianza a lo largo del tiempo.

Estos modelos no son perfectos. Maya, por ejemplo, ha demostrado hacer cosas raras de vez en cuando, pero los comentarios en algunos foros de discusión como este de Reddit dejan claro que la calidad de estos modelos es espectacular.

Captura De Pantalla 2025 03 05 A Las 15 43 39 Si queréis comprobar la calidad de este modelo, atentos a esto. Fuente: Reddit.

Y si no os lo creéis, echad un vistazo a esta conversación que Gavin Purcell, uno de los responsables del podcast AI for Humans, publicó en Reddit discutiendo sin tapujos con la máquina para tratar de encontrar sus límites.

No parece que lo lograra, y de hecho es imposible detectar que uno de los interlocutores es una máquina. Su rapidez de contestación, sus cambios de tonos, su elección de frases y palabras... es alucinante. El chatbot conversacional de Sesame permite además interpretar roles distintos ("roleplaying"), algo que por ejemplo OpenAi suele limitar.

OpenAI lleva tiempo trabajando en sus modos de voz para ChatGPT, y Grok 3 también ha implementado distintas voces sintetizadas y que además se ajustan a personalidades diversas. Hay incluso una voz "desquiciada" y otra "Sexy", por ejemplo, lo que demuestra una vez más que a Musk y a xAI no les importa experimentar

Como comentan en Ars Technica, en Sesame han logrado este avance gracias a dos modelos (uno troncal y otro descodificador) que trabajan conjuntamente. Ambos están basados en la arquitectura Llama de Meta, y Sesame ha crado tres tamaños distintos. El mayor de todos combina un modelo troncal de 8.000 millones de parámetros con un descodificador de 300 millones, lo que da como resultado un modelo conjunto 8,3B. Para entrenarlo han usado un millón de horas de ficheros de audio en inglés.

Los comentarios en un debate en Hacker News dejaron claro que la calidad de las voces de Sesame es casi humana, pero aun los usuarios seguían notando que algo fallaba. Uno de los cofundadores de Sesame, Brendan Iribe, participaba en el debate agradeciendo esos comentarios y confirmando que aún tienen mucho trabajo por delante. Es "todavía demasiado ansioso y a menudo inapropiado en su tono, prosodia y ritmo", explicaba, y tiene problemas con las interrupciones, los tiempos y la fluidez de la conversación. "Hoy estamos firmemente en el valle [inquietante]", afirmaba, "pero somos optimistas y podemos salir de él".

Las posibilidades parecen casi ilimitadas para este tipo de modelos, pero lo son tanto para bien como para mal. Su uso para suplantar identidades, por ejemplo, ya ha dado algunos sustos graves. Aquí la creación de una "contraseña familiar" puede ser muy útil para evitar parte de esos problemas, aunque en Sesame de momento no se permite clonar voces.

Veremos cómo reaccionan las empresas de IA ante este tipo de problemas, pero todo apunta a que ese futuro en el que hablaremos constantemente (y hasta nos enamoraremos) con las máquinas está cada vez más cerca.

En Xataka | Cuidado con enamorarte de tu chatbot: en OpenAI alertan de que GPT-4o puede reducir la necesidad de socializar con seres humanos

utm_campaign=06_Mar_2025"> Javier Pastor .