Actualmente está creciendo la popularidad de las interfaces habladas debido a la popularidad entre otros de los asistentes de voz. Aunque existe un problema importante: obtener una salida de voz que suene natural es aún muy complicado. Siendo necesario un entrenamiento muy costoso. Microsoft acaba de anunciar que ha desarrollado una forma más eficaz. Creando una inteligencia artificial que puede traducir texto a voz a con solamente 200 muestras de sonido, lo que es alrededor de 20 minutos. Para lo que se utilizan modelos basados en redes neuronales profundas.
Los sonidos obtenidos aún muestras un ligero sonido robótico, pero son muy precisos con una inteligibilidad de las palabras. Provocando que las soluciones de texto a voz sean más accesibles y populares en un futuro próximo. Ofreciendo así a pequeñas empresas y aficionados la probabilidad de crear voces artificiales realistas.
eñas empresas y aficionados la probabilidad de crear voces artificiales realistas.
Imágenes: Pixabay (Michael Gaida)
Hace poco publiqué una entrada en la que trataba de un sesgo bien documentado: aferrarse…
En un entrada previa explicamos qué son el WOE y el IV y por qué…
Seguimos evolucionando el laboratorio de Analytics Lane y hoy lanzamos la versión 1.1, disponible en:…
“El interés compuesto es la octava maravilla del mundo. El que lo entiende lo gana…
Tienes los datos de ventas de tres productos en dos años distintos y quieres saber…
Imagina la situación. Tu equipo lleva tres años con un modelo en producción. No es…
This website uses cookies.