Ahora ChatGPT puede “ver, oír y hablar” en voz alta con los usuarios.
Según un tuit publicado por la empresa, en dos semanas los usuarios “plus” y “enterprise” (es decir, los que pagan mensualmente) tendrán la posibilidad de hablar y escuchar al bot así como insertar imágenes en las conversaciones. Por el momento, los que están subscritos de manera gratuita tendrán que esperar para que la actualización esté disponible para ellos.
Según informó OpenAI en el comunicado oficial, las “conversaciones” se podrán usar desde dispositivos tanto IOS como Android. Sin embargo, la inclusión de imágenes estará disponible en todas las plataformas, incluyendo la PC. “Tanto la voz como la imagen ofrecen un tipo de interfaz más intuitiva al permitirte mantener una conversación de voz o mostrar a ChatGPT de qué estás hablando”, declaró la empresa
En detalle, la función de “voz” se basa en un nuevo modelo de conversión de texto en voz, capaz de generar un sonido similar al humano a partir de un texto y unos segundos de voz de muestra. Para ello, la empresa aclara que han colaborado con diferentes actores de doblaje profesionales para crear cada una de las voces. Así, en la plataforma, los usuarios podrán elegir entre cinco voces diferentes para hablar con ChatGPT.
A su vez, la comprensión de imágenes está potenciada por los modelos multimodales GPT-3.5 y GPT-4. Estos modelos aplican sus habilidades de razonamiento lingüístico a una amplia gama de imágenes, como fotografías, capturas de pantalla y documentos que contienen texto e imágenes.
Pero, ¿cómo funciona? OpenAI planteó varios casos hipotéticos para comprender mejor su utilidad. Por ejemplo, estás viajando y tomás una foto sobre el paisaje, insertas la imagen en el chat y tenés una conversación sobre por qué es interesante. Otro ejemplo, llegás a tu casa, tenés hambre, no sabés qué cocinar, sacás una foto de tu heladera y tu alacena, le preguntás al bot alguna receta creativa y su paso a paso. Como estas, infinitas posibilidades.
Use your voice to engage in a back-and-forth conversation with ChatGPT. Speak with it on the go, request a bedtime story, or settle a dinner table debate.
— OpenAI (@OpenAI) September 25, 2023
Sound on 🔊 pic.twitter.com/3tuWzX0wtS
Pero, todo tiene un lado B. La nueva función de “voz” es también capaz de generar voces sintéticas realistas a partir de unos pocos segundos de muestra de voz. Esto, por un lado, abre las puertas a mucha creatividad pero, por otro lado, también presenta un gran riesgo. Personas con “malas intenciones” podrán usar tomar esto como una nueva oportunidad para hacer fraude o imitando dichos de figuras públicas.
“Al igual que otras funciones de ChatGPT, nuestra visión trata de ayudarte en tu vida diaria”, reflexiona OpenAI en su página oficial con respecto a la creciente preocupación sobre las diferentes maneras en que se puede usar esta herramienta. La solución que se plantea en torno a esta cuestión son las regulaciones que ya se están planteando en algunos países.