Машина Больцмана

Графове подання прикладу машини Больцмана. Кожне неорієнтоване ребро подає залежність. У цьому прикладі є 3 приховані вузли та 4 видимі. Це не обмежена машина Больцмана.

Маши́на Бо́льцмана (також звана моде́ллю Ше́ррінгтона — Кіркпа́тріка із зо́внішнім по́лем та стохасти́чною моде́ллю І́зінга — Ле́нца — Лі́ттла, англ. Boltzmann machine, Sherrington–Kirkpatrick model with external field, stochastic Ising–Lenz–Little model) — це стохастична модель спінового скла із зовнішнім полем, тобто модель Шеррінгтона — Кіркпатріка(інші мови),^[1] що є стохастичною моделлю Ізінга. Це методика статистичної фізики, яку застосовують у контексті когнітивної науки.^[2] Її також класифікують як марковське випадкове поле.^[3]

Машини Больцмана теоретично захопливі через локальність і геббову природу їхнього алгоритму тренування (тренуються за геббовим правилом), а також через їхню паралельність і подібність їхньої динаміки до простих фізичних процесів. Машини Больцмана з необмеженою зв'язністю не виявилися корисними для практичних задач у машинному навчанні та висновуванні, але якщо зв'язність належним чином обмежено, то навчання можливо зробити достатньо ефективним, щоби воно було корисним для практичних задач.^[4]

Їх назвали на честь больцманового розподілу у статистичній механіці, який використовують у їхній функції відліків. Їх активно популяризували та пропагували Джефрі Гінтон, Террі Сейновський^[en] та Ян ЛеКун у спільнотах когнітивних наук та машинного навчання.^[2] Як загальніший клас у машинному навчанні ці моделі називають «моделями на основі енергії^[en]» (англ. "energy based models", EBM), оскільки як відправну точку для визначення навчального завдання використовують гамільтонові функції спінового скла.^[5]

Структура

Графове подання прикладу машини Больцмана з мітками ваг. — Графове подання машини Больцмана з кількома позначеними вагами. Кожне неорієнтоване ребро подає залежність і має вагу $w_{ij}$ . У цьому прикладі є 3 приховані вузли (сині) та 4 видимі (білі). Це не обмежена машина Больцмана.

Машина Больцмана, як і модель Шеррінгтона — Кіркпатріка(інші мови), це мережа вузлів із загальною «енергією» (гамільтоновою функцією), визначеною для загальної мережі. Її вузли видають бінарні результати. Ваги машини Больцмана стохастичні. Глобальна енергія $E$ у машині Больцмана ідентична за виглядом глобальній енергії мереж Гопфілда та моделей Ізінга:

E=-\left(\sum _{i<j}w_{ij}\,s_{i}\,s_{j}+\sum _{i}\theta _{i}\,s_{i}\right)

Де:

$w_{ij}$ — сила зв'язку між вузлом $j$ та вузлом $i$ .
$s_{i}$ — стан, $s_{i}\in \{0,1\}$ , вузла $i$ .
$\theta _{i}$ — зміщення вузла $i$ у функції глобальної енергії. ( $-\theta _{i}$ це поріг збудження для цього вузла.)

Часто ваги $w_{ij}$ подають як симетричну матрицю $W=[w_{ij}]$ з нулями по діагоналі.

Імовірність стану вузла

Різницю в глобальній енергії, що є результатом дорівнювання одного вузла $i$ 0 (off) чи 1 (on), позначувану через $\Delta E_{i}$ , виходячи з симетричної матриці ваг, задають як

\Delta E_{i}=\sum _{j>i}w_{ij}\,s_{j}+\sum _{j<i}w_{ji}\,s_{j}+\theta _{i}

Це можливо виразити як різницю енергій двох станів:

\Delta E_{i}=E_{\text{i=off}}-E_{\text{i=on}}

Заміна енергії кожного стану його відносною ймовірністю відповідно до больцманового множника^[en] (властивості больцманового розподілу, що енергія стану пропорційна від'ємній логарифмічній ймовірності цього стану), дає:

\Delta E_{i}=-k_{B}\,T\ln(p_{\text{i=off}})-(-k_{B}\,T\ln(p_{\text{i=on}}))

де $k_{B}$ — больцманова стала, що вбирається штучним поняттям температури $T$ . Потім ми змінюємо порядок членів і вважаємо, що ймовірності увімкненості та вимкненості вузла повинні давати в сумі одиницю:

{\frac {\Delta E_{i}}{T}}=\ln(p_{\text{i=on}})-\ln(p_{\text{i=off}})

{\frac {\Delta E_{i}}{T}}=\ln(p_{\text{i=on}})-\ln(1-p_{\text{i=on}})

{\frac {\Delta E_{i}}{T}}=\ln \left({\frac {p_{\text{i=on}}}{1-p_{\text{i=on}}}}\right)

-{\frac {\Delta E_{i}}{T}}=\ln \left({\frac {1-p_{\text{i=on}}}{p_{\text{i=on}}}}\right)

-{\frac {\Delta E_{i}}{T}}=\ln \left({\frac {1}{p_{\text{i=on}}}}-1\right)

\exp \left(-{\frac {\Delta E_{i}}{T}}\right)={\frac {1}{p_{\text{i=on}}}}-1

У розв'язку для $p_{\text{i=on}}$ ймовірність того, що $i$ -й вузол увімкнено, дає

p_{\text{i=on}}={\frac {1}{1+\exp(-{\frac {\Delta E_{i}}{T}})}}

де скаляр $T$ називають температурою системи. Це відношення є джерелом логістичної функції, яку можна знайти у ймовірнісних виразах варіантів машини Больцмана.

Стан рівноваги

Ця мережа працює шляхом циклічного обирання вузла та скидання його стану. Після достатньо тривалої роботи за певної температури, відповідно до больцманового розподілу, ймовірність глобального стану мережі залежить лише від енергії цього глобального стану, а не від початкового стану, з якого почався процес. Це означає, що логарифмічні ймовірності глобальних станів стають лінійними за своїми енергіями. Цей зв'язок справедливий, коли машина перебуває «у стані теплової рівноваги», тобто розподіл імовірностей глобальних станів збігся. При запуску мережі починаючи з високої температури її температура поступово знижується до досягнення теплової рівноваги за нижчої температури. Вона тоді може збігтися до розподілу, де рівень енергії коливається навколо глобального мінімуму. Цей процес називають імітуванням відпалювання.

Щоби натренувати мережу таким чином, щоби був шанс її збігання до глобального стану відповідно до зовнішнього розподілу над цими станами, ваги мусить бути встановлено так, щоби глобальні стани з найвищою ймовірністю отримували найменшу енергію. Це робиться тренуванням.

Тренування

Вузли в машині Больцмана поділяють на «видимі» (англ. 'visible') вузли, V, та «приховані» (англ. 'hidden') вузли, H. Видимі вузли — це ті, які отримують інформацію з «середовища», тобто тренувальний набір — це набір двійкових векторів над множиною V. Розподіл над тренувальним набором позначують через $P^{+}(V)$ .

Розподіл над глобальними станами збігається, коли машина Больцмана досягає теплової рівноваги. Ми позначуємо цей розподіл, після відособлення його над прихованими вузлами, через $P^{-}(V)$ .

Наша мета — наблизити «справжній» розподіл $P^{+}(V)$ , використовуючи $P^{-}(V)$ , вироблений машиною. Подібність цих двох розподілів вимірюють розходженням Кульбака — Лейблера, $G$ :

G=\sum _{v}{P^{+}(v)\ln \left({\frac {P^{+}(v)}{P^{-}(v)}}\right)}

де підсумовування йде за всіма можливими станами $V$ . $G$ є функцією ваг, оскільки вони визначають енергію стану, а енергія, як обіцяє больцманів розподіл, визначає $P^{-}(v)$ . Алгоритм градієнтного спуску над $G$ змінює задану вагу $w_{ij}$ відніманням часткової похідної $G$ за цією вагою.

Тренування машини Больцмана включає дві почергові фази. Одна — це «позитивна» фаза, коли стани видимих вузлів прив'язуються до конкретного бінарного вектора стану, вибраного з тренувального набору (відповідно до $P^{+}$ ). Інша — «негативна» фаза, коли мережі дозволяють вільно працювати, тобто лише стан вузлів входу визначається зовнішніми даними, але вузлам виходу дозволено плавати. Градієнт відносно заданої ваги, $w_{ij}$ , задається рівнянням^[6]

{\frac {\partial {G}}{\partial {w_{ij}}}}=-{\frac {1}{R}}[p_{ij}^{+}-p_{ij}^{-}]

де

$p_{ij}^{+}$ — ймовірність того, що вузли i та j обидва увімкнено, коли машина знаходиться в рівновазі у позитивній фазі.
$p_{ij}^{-}$ — ймовірність того, що вузли i та j обидва увімкнено, коли машина знаходиться в рівновазі у негативній фазі.
$R$ позначує темп навчання

Цей результат випливає з того, що за теплової рівноваги ймовірність $P^{-}(s)$ будь-якого глобального стану $s$ , коли мережа працює вільно, задається больцмановим розподілом.

Це правило навчання біологічно вірогідне, оскільки єдина інформація, необхідна для зміни ваг, надається «локальною» інформацією. Тобто, з'єднання (синапс, із біологічного погляду) не потребує інформації ні про що, крім двох нейронів, які воно з'єднує. Це біологічно реалістичніше, ніж інформація, необхідна з'єднанню в багатьох інших алгоритмах тренування нейронних мереж, таких як зворотне поширення.

Навчання машини Больцмана не використовує алгоритм очікування-максимізації, широко вживаний у машинному навчанні. З мінімізуванням КЛ-розходження, воно рівнозначне максимізуванню логарифмічної ймовірності даних. Таким чином, процедура тренування виконує градієнтне сходження за логарифмом правдоподібності спостережуваних даних. Це відрізняється від алгоритму очікування-максимізації, де апостеріорний розподіл прихованих вузлів мусить бути обчислено до максимізування очікуваного значення повної правдоподібності даних під час кроку максимізування.

Тренування зміщень відбувається подібно, але використовує активність лише одного вузла:

{\frac {\partial {G}}{\partial {\theta _{i}}}}=-{\frac {1}{R}}[p_{i}^{+}-p_{i}^{-}]

Проблеми

Теоретично, машина Больцмана це досить загальне обчислювальне середовище. Наприклад, тренована на фотографіях, машина теоретично змоделювала би розподіл фотографій, і цю модель можливо було би використовувати, щоби, наприклад, доповнювати^[en] часткову фотографію.

На жаль, машини Больцмана зазнають серйозної практичної проблеми, а саме того, що вони, як видається, перестають правильно навчатися, коли машина масштабується до чогось більшого за тривіальний розмір.^{[джерело?]} Це пов'язано з важливими ефектами, зокрема:

час, необхідний для збору статистики рівноваги, зростає експоненційно з розміром машини та величиною сил з'єднань^{[джерело?]}
сили з'єднань пластичніші тоді, коли з'єднані вузли мають проміжні ймовірності збудження між нулем та одиницею, що призводить до так званої пастки дисперсії (англ. variance trap). Чистий ефект полягає в тому, що шум змушує сили з'єднань слідувати випадковим блуканням, доки збудження не наситяться.

Типи

Обмежена машина Больцмана

Докладніше: Обмежена машина Больцмана

Хоч навчання у звичайних машинах Больцмана і непрактичне, воно може бути досить дієвим в обмеженій машині Больцмана (ОМБ, англ. restricted Boltzmann machine, RBM), яка не допускає внутрішньошарових з'єднань з-поміж прихованих та видимих вузлів, тобто немає з'єднань між видимими й видимими та прихованими й прихованими вузлами. Після тренування однієї ОМБ збудження її прихованих вузлів можливо розглядати як дані для тренування ОМБ вищого рівня. Цей метод складання (англ. stacking) ОМБ уможливлює ефективне тренування багатьох шарів прихованих вузлів і є однією з найпоширеніших стратегій глибокого навчання. Породжувальна модель покращується з додаванням кожного нового шару.

Розширення обмеженої машини Больцмана дозволяє використовувати дійснозначні дані замість двійкових.^[7]

Один із прикладів практичного застосування ОМБ — розпізнавання мовлення.^[8]

Глибока машина Больцмана

Глибока машина Больцмана (ГМБ, англ. deep Boltzmann machine, DBM) — це один з типів двійкового парного марковського випадкового поля (неорієнтованої ймовірнісної графової моделі) з кількома шарами прихованих випадкових змінних. Це мережа симетрично спарованих стохастичних двійкових вузлів^[en]. Вона складається з набору видимих вузлів ${\boldsymbol {\nu }}\in \{0,1\}^{D}$ та шарів прихованих вузлів ${\boldsymbol {h}}^{(1)}\in \{0,1\}^{F_{1}},{\boldsymbol {h}}^{(2)}\in \{0,1\}^{F_{2}},\ldots ,{\boldsymbol {h}}^{(L)}\in \{0,1\}^{F_{L}}$ . Жодне з'єднання не з'єднує вузли одного й того ж шару (як і в ОМБ). Для ГМБ ймовірністю, приписуваною векторові $ν$ , є

p({\boldsymbol {\nu }})={\frac {1}{Z}}\sum _{h}e^{\sum _{ij}W_{ij}^{(1)}\nu _{i}h_{j}^{(1)}+\sum _{jl}W_{jl}^{(2)}h_{j}^{(1)}h_{l}^{(2)}+\sum _{lm}W_{lm}^{(3)}h_{l}^{(2)}h_{m}^{(3)}},

де ${\boldsymbol {h}}=\{{\boldsymbol {h}}^{(1)},{\boldsymbol {h}}^{(2)},{\boldsymbol {h}}^{(3)}\}$ — набір прихованих вузлів, а $\theta =\{{\boldsymbol {W}}^{(1)},{\boldsymbol {W}}^{(2)},{\boldsymbol {W}}^{(3)}\}$ — параметри моделі, що подають взаємодії видимі-приховані та приховані-приховані.^[9] У ГМП лише два верхні шари утворюють обмежену машину Больцмана (що є неорієнтованою графовою моделлю), тоді як нижні шари утворюють орієнтовану породжувальну модель. У ГМБ всі шари симетричні та неорієнтовані.

Як і ГМП, ГМБ можуть навчатися складних та абстрактних внутрішніх подань входу в таких завданнях як розпізнавання об'єктів^[en] та мовлення, використовуючи обмежені мічені дані для тонкого налаштовування подань, побудованих із використанням великого набору немічених сенсо́рних вхідних даних. Проте, на відміну від ГМП та глибоких згорткових нейронних мереж, вони здійснюють процедуру висновування та тренування в обох напрямках, висхідному та низхідному, що дозволяє ГМБ краще розкривати подання вхідних структур.^[10]^[11]^[12]

Проте низька швидкість ГМБ обмежує їхню продуктивність та функціональність. Через те, що навчання точної максимальної правдоподібності для ГМБ непіддатливе, можливе лише навчання приблизної максимальної правдоподібності. Іншим варіантом є використання висновування осередненого поля (англ. mean-field inference) для оцінювання залежних від даних очікувань та наближення очікуваної достатньої статистики застосуванням методів Монте-Карло марковських ланцюгів (МКМЛ).^[9] Це наближене висновування, що мусить бути здійснено для кожного перевірного входу, приблизно в 25—50 разів повільніше за єдиний висхідний прохід у ГМБ. Це робить спільну оптимізацію непрактичною для великих наборів даних і обмежує використання ГМБ для таких завдань як подання ознак.

Піково-пластинні ОМБ

Потреба в глибокому навчанні з дійснозначними входами, як у гауссових ОМБ, привела до піково-пластинної ОМБ (ппОМБ, англ. spike-and-slab RBM, ssRBM), яка моделює неперервнозначні входи двійковими^[en] латентними змінними.^[13] Подібно до базових ОМБ та їхніх варіантів, піково-пластинна ОМБ це двочастковий граф, але, як і в ГОМБ, видимі вузли (входи) дійснозначні. Різниця полягає у прихованому шарі, де кожен прихований вузол має змінну бінарного піку (англ. spike) та змінну дійснозначної пластини (англ. slab). Пік — це дискретна маса ймовірності в нульовій точці, тоді як пластина — це густина в неперервній області;^[14] їхня суміш утворює апріорне.^[15]

Розширення ппОМБ під назвою µ-ппОМБ забезпечує додаткові моделювальні потужності за допомогою додаткових членів у функції енергії. Один із цих членів дає змогу моделі формувати умовний розподіл пікових змінних знеособленням пластинних змінних за заданого спостереження.

У математиці

Докладніше: міра Ґіббза^[en] та [[логарифмічно-лінійна модель^[en]|логарифмічно-лінійна модель^[en]]]

У загальнішій математичній постановці розподіл Больцмана також відомий як міра Ґіббза^[en]. У статистиці й машинному навчанні це називають логарифмічно-лінійною моделлю^[en]. У глибокому навчанні розподіл Больцмана використовують у вибірковому розподілі стохастичних нейронних мереж, таких як машина Больцмана.

Історія

Машина Больцмана ґрунтується на моделі спінового скла стохастичної моделі Ізінга Шеррінгтона — Кіркпатріка.^[16]

Первинний внесок у застосування таких моделей на основі енергії у когнітивній науці з'явився у статтях Гінтона та Сейновського.^[17]^[18]

Засаднича публікація Джона Гопфілда поєднала фізику та статистичну механіку, згадавши спінове скло.^[19]

Ідея застосування моделі Ізінга з ґіббзовим вибиранням^[en] з відпалюванням присутня в проєкті Copycat^[en] Дугласа Гофстедтера.^[20]^[21]

Подібні ідеї (зі зміною знаку функції енергії) зустрічаються в «Теорії гармонії» Пола Смоленського^[en].

Явна аналогія, проведена зі статистичною механікою у формулюванні машини Больцмана, привела до використання термінології, запозиченої з фізики (наприклад, «енергія», а не «гармонія»), що стала стандартом у цій галузі. Широке застосування цієї термінології, можливо, було заохочено тим фактом, що її використання призвело до прийняття різноманітних понять та методів зі статистичної механіки. Різноманітні пропозиції щодо використання імітування відпалювання для висновування були очевидно незалежними.

Моделі Ізінга стали вважати окремим випадком марковських випадкових полів, які знаходять широке застосування в лінгвістиці, робототехніці, комп'ютернім баченні та штучному інтелекті.

Див. також

Обмежена машина Больцмана
Машина Гельмгольца^[en]
Марковське випадкове поле
Модель Ізінга
Мережа Гопфілда
Правило навчання,^[22] яке використовує умовну «локальну» інформацію, може бути отримано з оберненого вигляду $G$ ,

G'=\sum _{v}{P^{-}(v)\ln \left({\frac {P^{-}(v)}{P^{+}(v)}}\right)}

.

Примітки

↑ Sherrington, David; Kirkpatrick, Scott (1975), Solvable Model of a Spin-Glass, Physical Review Letters (англ.), 35 (35): 1792—1796, Bibcode:1975PhRvL..35.1792S, doi:10.1103/PhysRevLett.35.1792
↑ ^а ^б Ackley, David H; Hinton Geoffrey E; Sejnowski, Terrence J (1985), A learning algorithm for Boltzmann machines (PDF), Cognitive Science (англ.), 9 (1): 147—169, doi:10.1207/s15516709cog0901_7
↑ Hinton, Geoffrey E. (24 травня 2007). Boltzmann machine. Scholarpedia (англ.). 2 (5): 1668. Bibcode:2007SchpJ...2.1668H. doi:10.4249/scholarpedia.1668. ISSN 1941-6016.
↑ Osborn, Thomas R. (1 січня 1990). Fast Teaching of Boltzmann Machines with Local Inhibition. International Neural Network Conference (англ.). Springer Netherlands. с. 785. doi:10.1007/978-94-009-0643-3_76. ISBN 978-0-7923-0831-7.
↑ Nijkamp, E.; Hill, M. E; Han, T. (2020), On the Anatomy of MCMC-Based Maximum Likelihood Learning of Energy-Based Models, Proceedings of the AAAI Conference on Artificial Intelligence (англ.), 4 (34): 5272—5280, doi:10.1609/aaai.v34i04.5973
↑ Ackley, David H.; Hinton, Geoffrey E.; Sejnowski, Terrence J. (1985). A Learning Algorithm for Boltzmann Machines (PDF). Cognitive Science^[en] (англ.). 9 (1): 147—169. doi:10.1207/s15516709cog0901_7. Архів оригіналу (PDF) за 18 липня 2011.
↑ Recent Developments in Deep Learning (англ.), архів оригіналу за 22 грудня 2021, процитовано 17 лютого 2020
↑ Yu, Dong; Dahl, George; Acero, Alex; Deng, Li (2011). Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition (PDF). Microsoft Research (англ.). 20.
↑ ^а ^б Hinton, Geoffrey; Salakhutdinov, Ruslan (2012). A better way to pretrain deep Boltzmann machines (PDF). Advances in Neural (англ.). 3: 1—9. Архів оригіналу (PDF) за 13 серпня 2017. Процитовано 18 серпня 2017.
↑ Hinton, Geoffrey; Salakhutdinov, Ruslan (2009). Efficient Learning of Deep Boltzmann Machines (PDF) (англ.). 3: 448—455. Архів оригіналу (PDF) за 6 листопада 2015. Процитовано 18 серпня 2017.
↑ Bengio, Yoshua; LeCun, Yann (2007). Scaling Learning Algorithms towards AI (PDF) (англ.). 1: 1—41.
↑ Larochelle, Hugo; Salakhutdinov, Ruslan (2010). Efficient Learning of Deep Boltzmann Machines (PDF) (англ.): 693—700. Архів оригіналу (PDF) за 14 серпня 2017. Процитовано 18 серпня 2017.
↑ Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). A Spike and Slab Restricted Boltzmann Machine (PDF). JMLR: Workshop and Conference Proceeding (англ.). 15: 233—241. Архів оригіналу (PDF) за 4 березня 2016. Процитовано 25 серпня 2019.
↑ Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). Unsupervised Models of Images by Spike-and-Slab RBMs (PDF). Proceedings of the 28th International Conference on Machine Learning (англ.). Т. 10. с. 1—8. Архів оригіналу (PDF) за 4 березня 2016. Процитовано 25 серпня 2019.
↑ Mitchell, T; Beauchamp, J (1988). Bayesian Variable Selection in Linear Regression. Journal of the American Statistical Association (англ.). 83 (404): 1023—1032. doi:10.1080/01621459.1988.10478694.
↑ Sherrington, David; Kirkpatrick, Scott (29 грудня 1975). Solvable Model of a Spin-Glass. Physical Review Letters (англ.). 35 (26): 1792—1796. Bibcode:1975PhRvL..35.1792S. doi:10.1103/physrevlett.35.1792. ISSN 0031-9007.
↑ Hinton, Geoffery; Sejnowski, Terrence J. (May 1983). Analyzing Cooperative Computation. 5th Annual Congress of the Cognitive Science Society (англ.). Rochester, New York. Процитовано 17 лютого 2020.{{cite conference}}: Обслуговування CS1: Сторінки з параметром url-status, але без параметра archive-url (посилання)
↑ Hinton, Geoffrey E.; Sejnowski, Terrence J. (June 1983). Optimal Perceptual Inference. IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (англ.). Washington, D.C.: IEEE Computer Society. с. 448—453.
↑ Hopfield, J. J. (1982). Neural networks and physical systems with emergent collective computational abilities. Proceedings of the National Academy of Sciences of the United States of America (англ.). [s.n.] 79 (8): 2554—8. Bibcode:1982PNAS...79.2554H. doi:10.1073/pnas.79.8.2554. OCLC 848771572. PMC 346238. PMID 6953413.
↑ Hofstadter, D. R. (January 1984). The Copycat Project: An Experiment in Nondeterminism and Creative Analogies (англ.). Defense Technical Information Center. OCLC 227617764.
↑ Hofstadter, Douglas R. (1988). A Non-Deterministic Approach to Analogy, Involving the Ising Model of Ferromagnetism. У Caianiello, Eduardo R. (ред.). Physics of cognitive processes (англ.). Teaneck, New Jersey: World Scientific. ISBN 9971-5-0255-0. OCLC 750950619.
↑ Liou, C.-Y.; Lin, S.-L. (1989). The other variant Boltzmann machine. International Joint Conference on Neural Networks (англ.). Washington, D.C., USA: IEEE. с. 449—454. doi:10.1109/IJCNN.1989.118618.