DALL-E | |||||
---|---|---|---|---|---|
Una imagen generada por DALL-E 3 (a través de ChatGPT) a partir del mensaje: «Generar una imagen que represente Dall-e». | |||||
Información general | |||||
Tipo de programa | software | ||||
Autor | OpenAI | ||||
Desarrollador | OpenAI | ||||
Modelo de desarrollo | Transformador de modelos de lenguaje | ||||
Lanzamiento inicial | 5 de enero de 2021 | ||||
Licencia | OpenAI | ||||
Idiomas | inglés | ||||
Lanzamientos | |||||
| |||||
Enlaces | |||||
DALL-E (estilizado DALL · E ) es un programa de inteligencia artificial que crea imágenes a partir de descripciones textuales o estímulos (prompt en inglés), reveladas por OpenAI el 5 de enero de 2021.[1] Utiliza una versión de 12 mil millones de parámetros[2] del modelo GPT-3 Transformer para interpretar las entradas del lenguaje natural (como «un bolso de cuero verde con forma de pentágono» o «una vista isométrica de un capibara triste») y generar las correspondientes imágenes.[3] Puede crear imágenes de objetos realistas («una vidriera policromada con la imagen de una fresa azul») así como objetos que no existen en la realidad («un cubo con la textura de un puercoespín»).[4][5][6] Su nombre es un acrónimo de WALL·E y Salvador Dalí.[2][3]
Microsoft implementó el modelo en la herramienta Image Creator de Bing y planea implementarlo en su aplicación Designer.[7]
Muchas redes neuronales artificiales desde la década de 2000 en adelante han podido generar imágenes realistas.[3] DALL-E, sin embargo, es capaz de generarlos a partir de indicaciones de lenguaje natural, que «comprende [...] y rara vez falla de manera importante».[3]
DALL-E fue desarrollado y anunciado al público en conjunto a CLIP (Contrastive Language-Image Pre-training o Pre-entrenamiento de Imagen-Lenguaje Contrastante),[1] un modelo separado cuya función es «comprender y clasificar» su resultado.[3] Las imágenes que genera DALL-E están seleccionadas por CLIP, que presenta las imágenes de más alta calidad.[1] OpenAI se ha negado a publicar el código fuente de cualquiera de los modelos; una «demostración controlada» de DALL-E está disponible en el sitio web de OpenAI, donde se puede ver la salida de una selección limitada de mensajes de muestra.[2] Las comunidades han publicado alternativas de código abierto, capacitadas en cantidades más pequeñas de datos, como DALL-E Mini.[8]
Según MIT Technology Review, uno de los objetivos de OpenAI era «dar a los modelos de lenguaje una mejor comprensión de los conceptos cotidianos que los humanos usan para dar sentido a las cosas».[1]