La nueva generación de imágenes de OpenAI: GPT-4o Reemplaza a DALL-E 3

juan felipe beltran diaz
27 mar 2025
5 min de lectura

OpenAI ha lanzado una actualización significativa en sus capacidades de generación de imágenes, integrando esta funcionalidad directamente en el modelo GPT-4o. Esta actualización, anunciada a finales de marzo de 2025, representa el primer cambio importante en la generación de imágenes de ChatGPT en más de un año y promete resolver varias limitaciones presentes en tecnologías anteriores como DALL-E 3.

Características principales del nuevo generador de imágenes

La característica más destacada de esta actualización es la integración nativa de la generación de imágenes directamente en el modelo GPT-4o, en lugar de depender de un modelo separado como ocurría anteriormente. Esta integración permite una experiencia más fluida y coherente al generar contenido visual [1]. Durante una transmisión en vivo, el CEO de OpenAI, Sam Altman, describió esta actualización como "una de las novedades más divertidas que hemos lanzado", señalando que representa un gran avance en la utilidad práctica de la generación de imágenes [4].

La nueva capacidad permite a ChatGPT crear imágenes a partir de descripciones textuales, pero también modificar imágenes existentes, incluyendo fotografías con personas [3]. El sistema puede transformar estas imágenes o realizar "inpainting" (redibujado) de detalles específicos, como objetos en primer plano y fondo [4]. Esta funcionalidad expande significativamente el potencial de uso de la herramienta más allá de la simple creación artística.

GPT-4o "piensa" durante más tiempo que su predecesor para producir imágenes más precisas y detalladas [3]. Esta mayor capacidad de procesamiento contribuye a la resolución de algunas limitaciones persistentes en los modelos de generación de imágenes basados en texto.

Capacidades avanzadas de edición y personalización

El nuevo generador de imágenes permite a los usuarios personalizar sus creaciones especificando la relación de aspecto, utilizando códigos hexadecimales para colores exactos e incluso generando imágenes con fondos transparentes [1]. Además, los usuarios pueden modificar imágenes que hayan subido o crear nuevas utilizando una imagen existente como punto de partida o inspiración [1].

Una característica particularmente valiosa es la capacidad de refinar las imágenes mediante conversaciones naturales, aprovechando tanto las imágenes como el texto en el contexto del chat para garantizar coherencia en todo momento [4]. Esto hace que el proceso de iteración y perfeccionamiento de las imágenes sea mucho más intuitivo.

Mejoras respecto a versiones anteriores

La actualización resuelve dos limitaciones significativas presentes en modelos anteriores: la correlación entre diferentes objetos y la representación de texto [1]. Un problema común en los generadores de imágenes basados en IA ha sido su dificultad para manejar correctamente el texto dentro de las imágenes, así como para mantener la coherencia cuando se solicitan múltiples objetos con atributos específicos.

Según Taya Christianson, portavoz de OpenAI, mientras que la mayoría de los modelos tienen dificultades cuando se les pide crear una serie específica de objetos en una imagen, confundiéndose con colores y formas a partir de 5 u 8 elementos, GPT-4o puede mantener la correlación de atributos con hasta 15 o 20 objetos sin confundirse [1]. Esta capacidad representa un avance significativo en la precisión y utilidad de la generación de imágenes.

Además, la tecnología puede renderizar texto con mayor precisión y seguir las instrucciones del usuario de manera más exacta, aprovechando la base de conocimientos integrada y el contexto de la conversación [1]. Esto es particularmente valioso para aplicaciones profesionales donde la precisión del texto es crucial.

Disponibilidad y despliegue

GPT-4o se ha convertido en el generador de imágenes predeterminado en ChatGPT, reemplazando oficialmente a DALL-E 3 [4]. La nueva funcionalidad ya está disponible para usuarios de ChatGPT Plus, Pro, Team y Free, aunque los usuarios gratuitos tendrán un límite de aproximadamente 3 imágenes al día, dependiendo de la demanda [1].

OpenAI planea extender esta tecnología a los usuarios de ChatGPT Enterprise y Edu en las próximas semanas [14]. Para quienes prefieran seguir utilizando DALL-E específicamente, esta herramienta seguirá accesible a través de una cuenta DALL·E GPT dedicada [4].

El nuevo modelo también está disponible en Sora, la herramienta de generación de video de OpenAI, y para los desarrolladores, la generación de imágenes mediante la API de GPT-4o se implementará en las próximas semanas [13].

Comparación con la competencia

Esta actualización de OpenAI sigue una tendencia similar a la de Google, que previamente lanzó la función experimental de generación de imágenes nativa para Gemini 2.0 Flash [4]. La herramienta de Google permite restaurar imágenes antiguas, modificar objetos sin afectar el fondo, añadir elementos faltantes y realizar ajustes avanzados de iluminación y composición [4].

Sin embargo, la función de Gemini 2.0 Flash generó controversia por tener pocas restricciones, permitiendo eliminar marcas de agua y crear imágenes con caracteres protegidos por derechos de autor [4]. OpenAI parece haber tomado nota de estas complicaciones, aunque no ha revelado detalles específicos sobre los datos de imágenes utilizados para el entrenamiento de su modelo actualizado [3].

Implicaciones y futuro de la generación de imágenes por IA

Sam Altman ha señalado que "la generación de imágenes ha sido, en gran medida, una novedad. Se ha podido crear arte genial con ella y se han hecho cosas increíbles, pero no ha tenido la capacidad de ser realmente útil en una amplia variedad de maneras", calificando la actualización de GPT-4o como "un gran avance" [4]. Esta afirmación sugiere que OpenAI pretende transformar la generación de imágenes de una herramienta principalmente creativa a una tecnología con aplicaciones prácticas y empresariales más amplias.

La integración nativa en GPT-4o, que ya había demostrado capacidades multimodales para comprender y generar combinaciones de texto, audio e imagen con gran velocidad [5], indica un cambio de paradigma en cómo se desarrollan y despliegan las tecnologías de IA generativa. En lugar de ofrecer herramientas separadas para diferentes tipos de contenido, la tendencia parece dirigirse hacia modelos más unificados y versátiles.

Esta actualización también refleja la intensificación de la competencia en el campo de la IA generativa, con empresas como OpenAI y Google lanzando rápidamente nuevas capacidades para mantenerse a la vanguardia. El énfasis en la integración nativa y la facilidad de uso sugiere un enfoque en hacer estas tecnologías más accesibles para usuarios no técnicos.

Conclusión

La nueva generación de imágenes con GPT-4o representa un avance significativo en la tecnología de IA generativa de OpenAI, abordando limitaciones importantes presentes en modelos anteriores como DALL-E 3. La integración nativa dentro del modelo de lenguaje, las mejoras en la representación de texto y la correlación entre objetos, junto con las capacidades avanzadas de edición, posicionan esta tecnología como un salto cualitativo en el campo de la generación de imágenes por IA.

Con su implementación progresiva a través de diferentes niveles de servicio, OpenAI está democratizando el acceso a estas capacidades avanzadas, al tiempo que compite activamente con otras empresas tecnológicas en el rápidamente evolutivo campo de la IA generativa. Queda por ver cómo los usuarios y desarrolladores aprovecharán estas nuevas capacidades para aplicaciones tanto creativas como prácticas.

Fuentes:

IAs que ayudaron a hacer esto posible:

Asistencia para la investigación con Perplexity IA.
Asistencia para el contenido media con GPT assistant (fine tuned).

Todo el contenido has sido creado por un humano con la ayuda de inteligencia artificial.