Amazon lanza Nova Sonic, su nueva IA de voz

Amazon subraya que esta innovación "simplifica el desarrollo de aplicaciones de voz, como agentes conversacionales o sistemas automatizados de atención al cliente".

Amazon presentó oficialmente Nova Sonic, un nuevo modelo de inteligencia artificial diseñado para procesar y generar voz de manera nativa, con una naturalidad sin precedentes. Según la compañía, esta propuesta no solo mejora la calidad conversacional, sino que también supera a sus competidores en pruebas clave de tiempo de respuesta, reconocimiento de voz y fluidez en las conversaciones.

A diferencia de los enfoques tradicionales, que requieren la integración de múltiples modelos para funciones como transcripción, comprensión y síntesis de voz, Nova Sonic adopta una arquitectura unificada. Esto le permite mantener el contexto acústico y reproducir matices del habla humana con mayor fidelidad, lo que resulta en una experiencia mucho más natural en las interacciones.

Amazon subraya que esta innovación “simplifica el desarrollo de aplicaciones de voz, como agentes conversacionales o sistemas automatizados de atención al cliente”, y que puede aplicarse en sectores diversos como salud, educación, viajes, entretenimiento, entre otros.

Las capacidades de la nueva IA de Amazon

Uno de los elementos más destacados es su capacidad para comprender los ritmos naturales de una conversación: reconoce pausas, vacilaciones, interrupciones y sabe cuándo hablar sin interrumpir. Además, convierte las entradas de voz en texto de forma precisa, lo que permite a los desarrolladores integrar agentes de IA conversacional con APIs y otras herramientas de software empresarial.

En pruebas de referencia, Nova Sonic mostró resultados impresionantes. En la evaluación Multilingual LibriSpeech —que mide la precisión del reconocimiento de voz en varios idiomas— obtuvo una tasa de error de solo 4.2% al promediar en inglés, español, francés, italiano y alemán.

Además, en el benchmark Augmented Multi Party Interaction, especializado en conversaciones con múltiples interlocutores, superó al modelo GPT-4o de OpenAI con una precisión 46.7% superior. También se destacó por su baja latencia: 1.09 segundos en promedio frente a los 1.18 segundos de GPT-4o, según el análisis de Artificial Analysis.

Nova Sonic ya está disponible a través de Bedrock, la plataforma de Amazon para el desarrollo de aplicaciones de IA, mediante una nueva API de streaming bidireccional. Con un costo 80% menor que el de GPT-4o, Amazon posiciona su nuevo modelo como la solución de voz más rentable y potente del mercado.