Macchina di Boltzmann ristretta

Schema di una macchina di Boltzmann ristretta con tre unità visibili e quattro unità nascoste (senza unità di bias)

Una macchina di Boltzmann ristretta (RBM) (detta anche modello di Sherrington-Kirkpatrick ristretto con campo esterno o modello di Ising-Lenz-Little stocastico ristretto ) è una rete neurale artificiale stocastica generativa in grado di apprendere una distribuzione di probabilità dall'insieme dei dati in ingresso.[1]

Le RBM furono inizialmente proposte con il nome di Harmonium da Paul Smolensky nel 1986[2] e salirono alla ribalta dopo che Geoffrey Hinton e i suoi collaboratori idearono algoritmi di apprendimento efficienti per questi modelli a metà degli anni 2000. Le RBM hanno trovato applicazioni a problemi di riduzione della dimensionalità[3], classificazione[4], filtraggio collaborativo[5], apprendimento delle feature[6] modellazione degli argomenti[7], l'immunologia[8], e persino di meccanica quantistica a moti corpi[9][10]. A seconda del compito da svolgere, l'addestramento può avvenire in modalità supervisionata o non supervisionata.

Come suggerisce il nome, le RBM sono una variante delle macchine di Boltzmann, con la restrizione che i loro neuroni debbano formare un grafo bipartito:

  • una coppia di nodi appartenenti ciascuno ai due gruppi distinti di unità (comunemente denominate, rispettivamente, unità "visibili" e "nascoste") può avere una connessione simmetrica tra loro; e
  • non ci sono connessioni tra i nodi all'interno di uno stesso gruppo.

Per converso, le macchine di Boltzmann "senza restrizioni" possono avere connessioni tra unità nascoste. Tale restrizione consente algoritmi di addestramento più efficienti di quelli disponibili per la classe generale di macchine di Boltzmann, in particolare l'algoritmo di divergenza contrastiva basato su gradiente[11].

Le RBM possono essere utilizzate anche nelle reti per l'apprendimento profondo. In particolare, si possono formare reti bayesiane profonde "impilando" più RBM e addestrando la rete profonda risultante mediante discesa di gradiente e retropropagazione.[12]

  1. ^ Sherrington, David, Solvable Model of a Spin-Glass, in Physical Review Letters, vol. 35, n. 35, 1975, pp. 1792–1796, Bibcode:1975PhRvL..35.1792S, DOI:10.1103/PhysRevLett.35.1792.
  2. ^ Paul Smolensky, Chapter 6: Information Processing in Dynamical Systems: Foundations of Harmony Theory (PDF), in Rumelhart, David E. e McLelland, James L. (a cura di), Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Volume 1: Foundations, MIT Press, 1986, pp.  194–281., ISBN 0-262-68053-X.
  3. ^ G. E. Hinton e R. R. Salakhutdinov, Reducing the Dimensionality of Data with Neural Networks (PDF), in Science, vol. 313, n. 5786, 2006, pp. 504–507, Bibcode:2006Sci...313..504H, DOI:10.1126/science.1127647, PMID 16873662. URL consultato il 17 agosto 2024 (archiviato dall'url originale il 23 dicembre 2015).
  4. ^ Larochelle, H.; Bengio, Y., Classification using discriminative restricted Boltzmann machines (PDF), 25th international conference on Machine learning - ICML '08, 2008, p. 536, DOI:10.1145/1390156.1390224, ISBN 978-1-60558-205-4.
  5. ^ Salakhutdinov, R.; Mnih, A.; Hinton, G., Restricted Boltzmann machines for collaborative filtering, Proceedings of the 24th international conference on Machine learning - ICML '07, 2007, p. 791, DOI:10.1145/1273496.1273596.
  6. ^ Coates, Adam; Lee, Honglak; Ng, Andrew Y., An analysis of single-layer networks in unsupervised feature learning (PDF), International Conference on Artificial Intelligence and Statistics (AISTATS), 2011. URL consultato il 17 agosto 2024 (archiviato dall'url originale il 20 dicembre 2014).
  7. ^ Ruslan Salakhutdinov and Geoffrey Hinton, Replicated softmax: an undirected topic model (PDF), 22nd International Conference on Neural Information Processing Systems, Curran Associates Inc., 2009, pp. 1607–1614. URL consultato il 17 agosto 2024 (archiviato dall'url originale il 25 maggio 2012).
  8. ^ Bravi, B; Di Gioacchino, A; Fernandez-de-Cossio-Diaz, J; Walczak, A M; Mora, T; Cocco, S; Monasson, R, A transfer-learning approach to predict antigen immunogenicity and T-cell receptor specificity, in Bitbol, A-F; Eisen, M B (a cura di), eLife, vol. 12, DOI:10.7554/eLife.85126, ISSN 2050-084X (WC · ACNP), PMID 37681658.
  9. ^ (EN) Carleo, Giuseppe e Troyer, Matthias, Solving the quantum many-body problem with artificial neural networks, in Science, vol. 355, n. 6325, pp. 602–606, Bibcode:2017Sci...355..602C, DOI:10.1126/science.aag2302, ISSN 0036-8075 (WC · ACNP), PMID 28183973, arXiv:1606.02318.
  10. ^ (EN) Melko, R. G.; Carleo, G.; Carrasquilla, J.; Cirac, J. I., Restricted Boltzmann machines in quantum physics, in Nature Physics, vol. 15, n. 9, pp. 887–892, Bibcode:2019NatPh..15..887M, DOI:10.1038/s41567-019-0545-1, ISSN 1745-2481 (WC · ACNP).
  11. ^ Errore nelle note: Errore nell'uso del marcatore <ref>: non è stato indicato alcun testo per il marcatore oncd
  12. ^ G. Hinton, Deep belief networks, in Cowell, Robert G. and Ghahramani, Zoubin (a cura di), Scholarpedia, vol. 4, n. 5, 2009, pp. 5947, Bibcode:2009SchpJ...4.5947H, DOI:10.4249/scholarpedia.5947.

From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by Nelliwinne