Ein Large Language Model, kurz LLM (englisch, vereinzelt übertragen großes Sprachmodell), ist ein Sprachmodell, das sich durch seine Fähigkeit zur Textgenerierung auszeichnet. Es handelt sich um ein computerlinguistisches Wahrscheinlichkeitsmodell, das statistische Wort- und Satzfolge-Beziehungen aus einer Vielzahl von Textdokumenten durch einen rechenintensiven Trainingsprozess erlernt hat. Für die mathematische Beschreibung siehe Sprachmodell.
Große Sprachmodelle erlangen diese Fähigkeiten durch die Verwendung gigantischer Datenmengen, um während des Trainings riesige Mengen von Parametern zu lernen. Dabei verbrauchen sie extrem viel Rechenressourcen.[1] Große Sprachmodelle sind im weiteren Sinne künstliche neuronale Netze und werden (a priori) entweder durch selbstüberwachtes Lernen oder halbüberwachte Lernmethoden trainiert. Stand 2024 werden meistens Transformer als Netzwerkarchitektur gewählt.[2]
Große Sprachmodelle arbeiten als selbstanpassende Sprachmodelle, die „verschiedene Aufgaben in natürlicher Sprache ausführen können, z. B. das Zusammenfassen, Übersetzen, Vorhersagen und Erstellen von Texten, indem sie einen Eingabetext nehmen und wiederholt das nächste Token oder Wort vorhersagen“.[3] Bis 2020 bestand die einzige Möglichkeit, ein Modell an bestimmte Aufgaben anzupassen, in der Feinabstimmung.[4] Größere Modelle, wie z. B. das inzwischen populäre GPT-3, wurden jedoch so konzipiert, dass sie mit Hilfe von Prompt Engineering ähnliche Ergebnisse erzielen können.[5] Zusätzlich zu der Fähigkeit, Kenntnisse über Syntax, Semantik und „Ontologie“ in menschlichen Sprachkorpora zu erwerben, wird angenommen, dass große Sprachmodelle auch in der Lage sind, Ungenauigkeiten und Verzerrungen in den Korpora zu erfassen.[6]
LLMs werden beispielsweise bei Open Assistant, ChatGPT, Ernie Bot und Grok eingesetzt. Einige große Sprachmodelle sind die GPT-Modellreihe von OpenAI (z. B. GPT-3.5 und GPT-4, die in ChatGPT und Microsoft Copilot verwendet werden), Googles PaLM, Gemini und Gemma 2, Metas LLaMA-Familie von Open-Source-Modellen, Anthropics Claude und X.AIs Grok-1. Daneben gibt es auch leistungsfähige LLMs chinesischer Firmen wie diejenigen von Alibaba, Deepseek, 01 AI und Zhipu AI.[7]