OpenAI ha anunciado que está cambiando la forma en que funciona el modo de voz de ChatGPT en la web y la aplicación de la empresa. Como parte de una actualización, podrá interactuar con ChatGPT Voice directamente en su chat en curso, lo que le permitirá ver una transcripción de su conversación utilizando el modelo de inteligencia artificial de OpenAI, así como representaciones visuales de lo que ChatGPT está hablando.
Puede iniciar un chat de voz simplemente tocando o haciendo clic en el ícono de “forma de onda” al lado del campo de texto de ChatGPT. En lugar de la interfaz de usuario original llena de viñetas con la que se lanzó la función, los chats de voz ahora se llevan a cabo de acuerdo con lo que discutiste anteriormente. En el vídeo de demostración que OpenAI publicó junto con el anuncio, ChatGPT pudo mostrar una transcripción de la conversación, seguida de un mapa de panaderías populares y fotografías de pasteles vendidos en Tartine. OpenAI dice que si prefieres la interfaz de voz original, puedes volver a ella encendiéndola. Modo separado en la sección “Modo de voz” de la configuración de ChatGPT.
La combinación de respuestas visuales y de voz es una extensión natural de la naturaleza multimodal de ChatGPT. Ya puedes invocar el modelo OpenAI con tu voz y una imagen o vídeo. Tiene sentido que las respuestas de voz de ChatGPT tengan el mismo nivel de detalle. Google ha explorado métodos similares para hacer que Gemini Live sea más expresivo durante las conversaciones, incluida la capacidad de hacer que la IA resalte ciertas partes de un video en vivo con superposiciones. Esta característica de OpenAI no es tan reactiva, pero podría hacer que una conversación de voz con ChatGPT sea más informativa.