In der Statistik ist ein Informationskriterium ein Kriterium zur Modellauswahl. Man folgt dabei der Idee von Ockhams Rasiermesser, dass ein Modell nicht unnötig komplex sein soll und balanciert die Anpassungsgüte des geschätzten Modells an die vorliegenden empirischen Daten (Stichprobe) und dessen Komplexität, gemessen an der Anzahl der Parameter, aus. Die Anzahl der Parameter wird dabei „strafend“ berücksichtigt, da sonst komplexe Modelle mit vielen Parametern bevorzugt würden. In diesem Sinne ist das korrigierte Bestimmtheitsmaß, das auf Henri Theil (1970) zurückgeht, ein Vorläufer der heute bekannten Informationskriterien.
Allen heute verwendeten Informationskriterien ist gleich, dass sie in zwei verschiedenen Formulierungen vorliegen. Entweder ist das Maß für die Anpassungsgüte als die „maximale Plausibilität“ oder als die „minimale Varianz“ der Residuen formuliert. Hieraus ergeben sich unterschiedliche Interpretationsmöglichkeiten. Beim Ersteren ist das Modell „am besten“, bei dem das jeweilige Informationskriterium den höchsten Wert hat (die „strafende“ Anzahl der Parameter muss dabei abgezogen werden). Beim Letzteren ist das Modell mit dem niedrigsten Wert des Informationskriteriums am besten (die Anzahl der Parameter muss „strafend“ addiert werden).