Un modelo de texto a imaxe (text-to-image model en inglés) é un modelo de aprendizaxe automática que toma como entrada unha descrición en linguaxe natural e produce unha imaxe que coincida con esa descrición. Estes modelos comezaron a desenvolverse a mediados da década de 2010, como resultado dos avances nas redes neuronais profundas. En 2022, a produción de modelos de texto a imaxe de última xeración, como DALL-E 2 de OpenAI, Imagen de Google Brain e Stable Diffusion de StabilityAI comezou a achegarse á calidade das fotografías reais e da arte debuxada por humanos.
Os modelos texto a imaxe xeralmente combinan un modelo de linguaxe, que transforma o texto de entrada nunha representación latente, e un modelo de imaxe xerativa (generative model) que produce unha imaxe condicionada a esa representación. Os modelos máis eficaces foron xeralmente adestrados en cantidades enormes de datos de imaxe e texto extraídos da web.[1]