ChatGPT evoluciona (más): La IA podrá hablar, escuchar y ver imágenes

Sep 25, 2023

OpenAI presenta dos novedades para su modelo de lenguaje generativo, que ahora puede procesar imágenes y generar respuestas visuales, además de interactuar con los usuarios mediante voz e imágenes.

La inteligencia artificial generativa es una de las áreas más innovadoras y prometedoras de la tecnología actual.
Se trata de sistemas capaces de crear contenido original y creativo en diversos formatos y modalidades, como texto, voz, imágenes o música.
Uno de los referentes en este campo es OpenAI, una empresa fundada por personalidades como Elon Musk o Peter Thiel, que tiene como objetivo desarrollar una inteligencia artificial beneficiosa para la humanidad.

OpenAI cuenta con varios productos basados en la inteligencia artificial generativa, como GPT-4, el modelo de lenguaje más avanzado del mundo, capaz de generar textos coherentes y relevantes a partir de cualquier prompt o palabra clave.
Uno de los usos más populares de GPT-4 es ChatGPT, un sistema que permite conversar con el modelo de lenguaje mediante texto escrito.
ChatGPT puede responder a cualquier tipo de pregunta o comentario, e incluso generar contenido creativo como poemas, historias o canciones.

ChatGPT ahora puede ver y mostrar imágenes

Sin embargo, OpenAI no se conforma con lo que ha logrado hasta ahora y sigue trabajando para mejorar sus sistemas de inteligencia artificial generativa.
Así lo ha demostrado al anunciar dos importantes novedades para ChatGPT, que amplían sus capacidades y posibilidades de uso.

La primera novedad es GPT-4V, una versión de GPT-4 que incorpora la capacidad de procesar imágenes y generar respuestas visuales.
Esto significa que ChatGPT ahora puede ver y mostrar imágenes, además de texto.
Por ejemplo, si le pedimos que nos muestre una foto de un gato negro, nos devolverá una imagen generada por el sistema que se ajuste a nuestra solicitud.
O si le enviamos una foto de un lugar turístico, nos dará información sobre él.

Esta funcionalidad se basa en el sistema DALL-E 3, otro producto de OpenAI que genera imágenes a partir de descripciones textuales.
DALL-E 3 es capaz de crear imágenes realistas o fantásticas a partir de cualquier combinación de palabras, como “un avión hecho de plátanos” o “un pingüino con sombrero”.
ChatGPT utiliza DALL-E 3 para generar las imágenes que muestra a los usuarios, y también para ayudarles a crear prompts en imágenes usando sugerencias visuales.

ChatGPT ahora puede hablar y escuchar

La segunda novedad es la introducción de modos conversacionales multimodales, que permiten a los usuarios interactuar con ChatGPT mediante voz e imágenes, además de texto. Esto significa que ChatGPT ahora puede hablar y escuchar, además de escribir y leer. Por ejemplo, si le hablamos por el micrófono, nos responderá con una voz sintetizada. O si le mostramos una imagen por la cámara, nos dará un comentario al respecto.

Esta funcionalidad se basa en el sistema WaveNet 2, otro producto de OpenAI que genera voces naturales a partir de texto.
WaveNet 2 es capaz de crear voces con diferentes acentos, tonos y emociones, imitando el habla humana.
ChatGPT utiliza WaveNet 2 para generar las voces que usa para hablar con los usuarios, y también para reconocer el habla de los usuarios mediante un sistema de transcripción automática.

Estos modos conversacionales multimodales se irán implementando en las próximas semanas en la plataforma web de ChatGPT, donde los usuarios podrán elegir entre cinco voces diferentes para hablar con el sistema: masculina, femenina, infantil, robótica o aleatoria.
Además, los usuarios podrán enviar imágenes desde sus dispositivos o desde la web para conversar con ChatGPT sobre ellas.

ChatGPT abre nuevas posibilidades de uso

Con estas mejoras, OpenAI demuestra su liderazgo en el desarrollo de sistemas de inteligencia artificial capaces de generar contenido original y creativo en diversos formatos y modalidades.
Sin embargo, también se enfrenta a la competencia de otras empresas como Anthropic, que recientemente ha anunciado una asociación con Amazon para ofrecer servicios en la nube y acceso a hardware especializado para la inteligencia artificial.

Estas novedades también abren nuevas posibilidades de uso para ChatGPT, que ahora puede ofrecer una experiencia más rica y completa a los usuarios.
Por ejemplo, ChatGPT podría ser utilizado como un asistente personal, un profesor, un amigo, un terapeuta o un entretenedor.
Algunas de las aplicaciones que se podrían realizar con ChatGPT son:

  • Obtener información sobre lugares turísticos, recetas de cocina o problemas matemáticos a partir de fotos tomadas con el móvil.
  • Aprender idiomas, historia o arte conversando con ChatGPT en diferentes lenguas y mostrándole imágenes relacionadas con los temas.
  • Divertirse con juegos, retos o bromas que ChatGPT propone o responde usando texto, voz e imágenes.
  • Expresar emociones, sentimientos o ideas hablando o escribiendo con ChatGPT y recibiendo respuestas empáticas o creativas.

Más noticias

Verificado por MonsterInsights