Las conversaciones habladas más avanzadas están llegando a ChatGPT
Lejos del tipo de voz robótica que la gente ha llegado a asociar con asistentes digitales como Alexa o Siri, el modo de voz avanzado de ChatGPT suena sorprendentemente natural. Responde en tiempo real, puede adaptarse a las interrupciones, puede hacer ruidos de risa cuando un usuario hace una broma y puede juzgar el estado emocional de un hablante según su tono de voz. (Durante la demostración inicial, también sonó sospechosamente como Scarlett Johansson).
A partir del martes, el modo de voz avanzado —que funciona con la versión más potente del chatbot, ChatGPT-4o— comenzará a implementarse en los usuarios de pago. El modo de voz avanzado comenzará a implementarse en un pequeño grupo de suscriptores de la modalidad "Plus" de la aplicación, con el objetivo de hacerlo disponible para todos los usuarios Plus en el otoño.
ChatGPT ya cuenta con un modo de voz menos sofisticado. Pero el lanzamiento de un modo de voz más avanzado podría marcar un hito importante para OpenAI, transformando lo que ya era un chatbot de IA significativo en algo más parecido a un asistente personal virtual con el que los usuarios pueden mantener conversaciones naturales y habladas, de manera similar a como charlarían con un amigo. La facilidad de conversar con el modo de voz avanzado de ChatGPT podría animar a los usuarios a interactuar con la herramienta con más frecuencia, y supondría un reto para los incumbentes de los asistentes virtuales como Apple y Amazon.
Pero introducir un modo de voz más avanzado para ChatGPT también plantea grandes preguntas: ¿reconocerá la herramienta de manera fiable lo que los usuarios intentan decir, incluso si tienen diferencias del habla? ¿Y confiarán los usuarios más en un asistente de IA que suena humano, incluso cuando se equivoque?
OpenAI inicialmente dijo que había planeado comenzar el lanzamiento del modo de voz avanzado en junio, pero dijo que necesitaba "un mes más para alcanzar nuestro listón para lanzar" para probar la herramienta y asegurarse de que puede ser utilizada por millones de personas mientras se mantiene la respuesta en tiempo real.
La empresa dijo que en los últimos meses ha probado las capacidades de voz del modelo de IA con más de 100 probadores para identificar posibles debilidades, "que en conjunto hablan un total de 45 idiomas diferentes y representan 29 geografías diferentes", según un comunicado del martes.
Entre sus medidas de seguridad, la empresa dijo que el modo de voz no podrá utilizar ninguna voz más allá de cuatro opciones predefinidas que ha creado en colaboración con actores de voz —para evitar la imitación— y también bloqueará ciertas solicitudes que pretendan generar música u otros audios con derechos de autor. OpenAI dice que la herramienta también tendrá las mismas protecciones que el modo de texto de ChatGPT para evitar que genere contenido ilegal o "perjudicial".
El modo de voz avanzado también tendrá una gran diferencia con la demostración que OpenAI mostró en mayo: los usuarios ya no podrán acceder a la voz que muchos (incluida la propia actriz) creían que sonaba como Johansson. Aunque OpenAI ha mantenido que la voz nunca se pretendió que sonara como Johansson y se creó con la ayuda de un actor diferente, se puso en pausa el uso de la voz "por respeto" después de que la actriz se quejara.
El lanzamiento del modo de voz avanzado de ChatGPT llega después de que OpenAI anunciara la semana pasada que estaba probando un motor de búsqueda que utiliza su tecnología de IA, a medida que la empresa sigue expandiendo su cartera de herramientas de IA para consumidores. El motor de búsqueda de OpenAI podría