Modelo de texto a imaxe

Un exemplo de texto a imaxe de DALL-E 2 creado usando o promt (indicador) "a medieval painting of a man sitting at a computer editing a Wikipedia article" ("unha pintura medieval dun home sentado ante un ordenador editando un artigo da Wikipedia").

Un modelo de texto a imaxe (text-to-image model en inglés) é un modelo de aprendizaxe automática que toma como entrada unha descrición en linguaxe natural e produce unha imaxe que coincida con esa descrición. Estes modelos comezaron a desenvolverse a mediados da década de 2010, como resultado dos avances nas redes neuronais profundas. En 2022, a produción de modelos de texto a imaxe de última xeración, como DALL-E 2 de OpenAI, Imagen de Google Brain e Stable Diffusion de StabilityAI comezou a achegarse á calidade das fotografías reais e da arte debuxada por humanos.

Os modelos texto a imaxe xeralmente combinan un modelo de linguaxe, que transforma o texto de entrada nunha representación latente, e un modelo de imaxe xerativa (generative model) que produce unha imaxe condicionada a esa representación. Os modelos máis eficaces foron xeralmente adestrados en cantidades enormes de datos de imaxe e texto extraídos da web.[1]

Unha imaxe condicionada á indicación "un astronauta montando a cabalo, de Hiroshige ", xerada por Stable Diffusion, un modelo de texto a imaxe a grande escala lanzado en 2022.
  1. Vincent, James (2022-05-24). "All these images were generated by Google’s latest text-to-image AI". The Verge (en inglés). Consultado o 2022-09-11. 

From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by Nelliwinne