¡Adiós Loquendo! Conoce a Tacotron 2 – voz artificial realista
Es probable que el uso de el popular Loquendo caiga en el olvido, porque se están sofisticando los métodos hasta límites insospechados y ya resulta difícil distinguirlos de voces reales. Una nueva tecnología de finales del 2017 denominada Tacotron 2, imita la entonación, identifica los signos de puntuación y los errores, hace pausas, simula la respiración y pronuncia frases complejas (e incluso, trabalenguas).
Los avances de Google en materia de inteligencia artificial no paran, y ahora han aplicado técnicas de redes neuronales profundas para desarrollar este sistema que permite leer textos escritos con una voz sintetizada asombrosamente real.
El sistema de Google se basa en una primera red neuronal que traduce el texto a un espectrograma para representar frecuencias de audio a lo largo del tiempo. Ese análisis alimenta al llamado WaveNet, un sistema desarrollado por su división DeepMind que estudia el diagrama y genera los elementos de audio correspondientes para ofrecer la voz sintetizada. El gigante tecnológico ha publicado varios audios en los que muestra los resultados de este proyecto de investigación (que por ahora está todavía en pruebas, aunque el resultado sea sumamente satisfactorio).
Al escuchar tanto la voz real como la sintetizada, hay que decir que cuesta identificar cuál es cuál. Se espera que en el futuro, el sistema sea aplicado en el asistente de voz Google Assistant, para proporcionarle mayor naturalidad.
Pero de momento solo está disponible en voz femenina y en inglés, y para conseguir una voz de hombre u otra voz diferente de mujer, será necesario volver a entrenar el sistema (así que tendremos que esperar un poco más, para verlo en plena acción y en nuestros chismes).
Las aplicaciones de esta Inteligencia artificial son potencialmente abrumadoras: Dispositivos como Google Home o el Echo de Amazon, Android Auto o los nuevos teléfonos Pixel, dejan entrever que en un futuro no muy lejano, se hará prácticamente todo por voz.
Sin embargo, para que esto sea posible los nuevos asistentes virtuales no solo deben responder correctamente a las preguntas de los usuarios, sino que además, han de tener una voz agradable y humana.
Cuando Tacotron 2 esté listo para pasar a la fase comercial y reemplace a Wavenet como voz de Google Assistant, supondrá un paso abismal para la experiencia de los usuarios de los dispositivos controlados por voz de Google.
Durante muchos años, los científicos han estado trabajando para que el habla generada por computadora, suene más humana y menos robótica. El equipo de Tacotron 2 señala que todavía están trabajando para mejorar el sistema (sobre todo, para superar problemas con palabras complejas y hacer que funcione en tiempo real). También les gustaría agregar más emoción a la voz, para que los oyentes puedan escuchar la felicidad o la tristeza, por ejemplo, o para detectar el disgusto. Hacerlo, no solo haría avanzar a la ciencia, sino que haría que las interacciones con los asistentes digitales fueran más íntimas.
Claro, y aunque todavía falte, todo esto significa poder disponer también de un habla humanizada para los futuros androides de próxima generación. Parecerán físicamente humanos, se comportan como los humanos, y hablarán como los humanos… Madre mía, lo que está por venir…
¿Qué os parece todo esto?
¿Os imagináis asistentes que hablen y entonen como los humanos?
¿Os imagináis poder usar este nuevo loquendo en vuestros vídeos youtube, y que el resultado sea realmente convincente?
Etiquetas:tecnología