Stable Diffusion
| |
---|---|
Ein von Stable Diffusion generiertes Bild mithilfe des Prompts: „a photograph of an astronaut riding a horse“ | |
Basisdaten
| |
Entwickler | Stability AI |
Erscheinungsjahr | 22. August 2022 |
Aktuelle Version | 3.5[1] (23. Oktober 2024) |
Betriebssystem | Linux, macOS, Microsoft Windows |
Programmiersprache | Python |
Kategorie | Text-zu-Bild-Generator |
Lizenz | Stability AI Community License |
https://stability.ai/stable-image |
Stable Diffusion ist ein Deep-Learning-Text-zu-Bild-Generator. Die Open-Source-Software wird hauptsächlich zur Generierung detaillierter Bilder auf der Grundlage von Textbeschreibungen verwendet, kann aber auch für andere Aufgaben wie Inpainting, Outpainting und die Erzeugung von Bild-zu-Bild-Übersetzungen auf der Grundlage einer schriftlichen Aufforderung (Prompt) eingesetzt werden.
Stable Diffusion verwendet ein latentes Diffusionsmodell als Variante eines tiefen generativen neuronalen Netzes, das von der CompVis-Gruppe an der LMU München[2] in Zusammenarbeit von Stability AI, CompVis LMU und Runway mit Unterstützung von EleutherAI und LAION entwickelt wurde.[3][4]
Im Oktober 2022 erhielt Stability AI in einer von Lightspeed Venture Partners und Coatue Management angeführten Finanzierungsrunde 101 Millionen US-Dollar.[5]
Der Code und die Modellgewichte von Stable Diffusion wurden veröffentlicht[6] und können auf vielen Consumer-Hardware-Systemen ausgeführt werden, sofern diese mit einer GPU mit mindestens 8 GB Grafikspeicher ausgestattet sind. Die Verwendung auf weniger leistungsfähiger Hardware bzw. ohne GPU-Beschleunigung ist mittlerweile ebenfalls möglich, jedoch deutlich langsamer. Dieser offene Ansatz stellt eine Abkehr von proprietären Text-zu-Bild-Modellen wie DALL-E und Midjourney dar, die nur über Cloud-Dienste zugänglich sind.[7][8]