I metodi bayesiani variazionali costituiscono una famiglia di tecniche di approssimazione per integrali intrattabili propri dell'inferenza bayesiana e dell'apprendimento automatico. Vengono usati tipicamente su modelli statistici complessi che comprendono variabili osservate (dette solitamente "dati") parametri sconosciuti e variabili latenti, con vari tipi di relazioni fra i tre tipi di variabili casuali, descrivibili tramite un modello grafico. Com'è tipico nell'inferenza bayesiana, i parametri e le variabili latenti costituiscono le "variabili non osservate". I metodi Bayesiani Variazionali servono principalmente a due scopi:
Relativamente al primo obiettivo (l'approssimazione di una probabilità a posteriori), il metodo variazionale Bayesiano è alternativo ai metodi di campionamento Monte Carlo — in particolare ai metodi Markov chain Monte Carlo come il Gibbs sampling —in quanto comprendono un approccio pienamente Bayesiano all'inferenza statistica su distribuzioni complesse che risultano difficili da valutare direttamente o da campionare. In particolare, mentre le tecniche Monte Carlo forniscono un'approssimazione numerica per l'esatta distribuzione a posteriori tramite un insieme di campioni, il metodo variazionale fornisce una soluzione analitica esatta localmente ottimale, a problemi di approssimazione della probabilità a posteriori.
L'approccio variazionale bayesiano può essere visto come un'estensione dell'algoritmo expectation–maximization (EM) a partire dalla stima del massimo a posteriori (stima MAP) del singolo valore più probabile di ognuno dei parametri fino alla stima pienamente Bayesiana che calcola (un'approssimazione del) l'intera distribuzione a posteriori dei parametri e delle variabili latenti. Come in EM, cerca un insieme di valori ottimali per i parametri, ed ha la stessa struttura a 2 passi alternativi di EM, basata su un insieme di equazioni intrecciate (mutuamente dipendenti) che non possono essere risolte analiticamente.
In molte applicazioni, il metodo variazionale produce soluzioni di accuratezza confrontabile con quella del Gibbs sampling ma a una velocità maggiore. Tuttavia, la derivazione dell'insieme di equazioni usate per aggiornare i parametri iterativamente richiede spesso molto lavoro in confronto alla derivazione le equazioni comparabili del Gibbs sampling. Questo accade anche per molti modelli concettualmente molto semplici.