Modelo de texto a imaxe

Un modelo de texto a imaxe (text-to-image model en inglés) é un modelo de aprendizaxe automática que toma como entrada unha descrición en linguaxe natural e produce unha imaxe que coincida con esa descrición. Estes modelos comezaron a desenvolverse a mediados da década de 2010, como resultado dos avances nas redes neuronais profundas. En 2022, a produción de modelos de texto a imaxe de última xeración, como DALL-E 2 de OpenAI, Imagen de Google Brain e Stable Diffusion de StabilityAI comezou a achegarse á calidade das fotografías reais e da arte debuxada por humanos.

Os modelos texto a imaxe xeralmente combinan un modelo de linguaxe, que transforma o texto de entrada nunha representación latente, e un modelo de imaxe xerativa (generative model) que produce unha imaxe condicionada a esa representación. Os modelos máis eficaces foron xeralmente adestrados en cantidades enormes de datos de imaxe e texto extraídos da web.^[1]

↑ Vincent, James (2022-05-24). "All these images were generated by Google’s latest text-to-image AI". The Verge (en inglés). Consultado o 2022-09-11.

[1] Vincent, James (2022-05-24). "All these images were generated by Google’s latest text-to-image AI". The Verge (en inglés). Consultado o 2022-09-11.

[1]

Modelo de texto a imaxe

From Wikipedia, the free encyclopedia · View on Wikipedia