Математика штучних нейронних мереж

Докладніше: Штучна нейронна мережа

Штучна нейронна мережа (ШНМ, англ. artificial neural network, ANN) поєднує біологічні принципи з передовою статистикою для розв'язування задач у таких областях як розпізнавання образів та ігровий процес. ШНМ приймають базову модель нейронних аналогів, з'єднаних один з одним різними способами.

Структура

Нейрон

Нейрон з міткою $j$ , що отримує вхід $p_{j}(t)$ від нейронів-попередників, містить наступні складові:^[1]

збудження (англ. activation) $a_{j}(t)$ , стан нейрона, що залежить від дискретного часового параметра,
необов'язковий поріг (англ. threshold) $\theta _{j}$ , що лишається незмінним, якщо не змінюється навчанням,
функцію збудження (англ. activation function) $f$ , яка обчислює нове збудження в заданий час $t+1$ виходячи з $a_{j}(t)$ , $\theta _{j}$ та чистого входу $p_{j}(t)$ , породжуючи відношення

a_{j}(t+1)=f(a_{j}(t),p_{j}(t),\theta _{j}),

та функцію виходу (англ. output function) $f_{\text{out}}$ , яка обчислює вихід зі збудження

o_{j}(t)=f_{\text{out}}(a_{j}(t)).

Функція виходу часто просто тотожна функція.

Нейрон входу (англ. input neuron) не має попередників, і слугує інтерфейсом входу для всієї мережі. Так само, нейрон виходу (англ. output neuron) не має наступників, й отже, слугує інтерфейсом виходу всієї мережі.

Функція поширення

Функція поширення (англ. propagation function) обчислює вхід $p_{j}(t)$ до нейрона $j$ з виходів $o_{i}(t)$ , і зазвичай має вигляд^[1]

p_{j}(t)=\sum _{i}o_{i}(t)w_{ij}.

Зміщення

Може бути додано член зміщення (англ. bias), що змінює її вигляд на такий:^[2]

p_{j}(t)=\sum _{i}o_{i}(t)w_{ij}+w_{0j},

де

w_{0j}

— це зміщення.

Нейронні мережі як функції

Див. також: Графові моделі

Нейромережні моделі можливо розглядати як такі, що визначають функцію, яка бере вхід (спостереження) та видає вихід (рішення) $\textstyle f:X\rightarrow Y$ або розподіл над $\textstyle X$ або над $\textstyle X$ та $\textstyle Y$ . Іноді моделі тісно пов'язані з певним правилом навчання. Загальне використання фрази «модель ШНМ» насправді є визначенням класу таких функцій (де членів класу отримують варіюванням параметрів, ваг з'єднань або особливостей архітектури, таких як кількість нейронів, кількість шарів або їхня зв'язність).

З математичної точки зору мережну функцію нейрона $\textstyle f(x)$ визначають як композицію інших функцій $\textstyle g_{i}(x)$ , які можливо розкласти далі на інші функції. Це можливо зручно подавати у вигляді мережної структури зі стрілками, що зображують залежності між функціями. Широко вживаний тип композиції — нелінійна зважена сума, де $\textstyle f(x)=K\left(\sum _{i}w_{i}g_{i}(x)\right)$ , де $\textstyle K$ (що зазвичай називають передавальною функцією, також англ. activation function^[3]) — це деяка наперед визначена функція, наприклад, гіперболічний тангенс, сигмоїдна функція, нормована експоненційна функція (англ. softmax function) або випрямляльна функція (англ. rectifier function). Важливою характеристикою передавальної функції є те, що вона забезпечує плавний перехід за зміни значень входу, тобто невелика зміна входу призводить до невеликої зміни виходу. Далі йдеться про набір функцій $\textstyle g_{i}$ як вектор $\textstyle g=(g_{1},g_{2},\ldots ,g_{n})$ .

Цей рисунок зображує такий розклад $\textstyle f$ , із залежностями між змінними, показаними стрілками. Їх можливо тлумачити двояко.

Перший погляд — функційний: вхід $\textstyle x$ перетворюється на тривимірний вектор $\textstyle h$ , який відтак перетворюється на 2-вимірний вектор $\textstyle g$ , який остаточно перетворюється на $\textstyle f$ . Цей погляд найчастіше зустрічається в контексті оптимізації.

Другий погляд — імовірнісний: випадкова змінна $\textstyle F=f(G)$ залежить від випадкової змінної $\textstyle G=g(H)$ , що залежить від $\textstyle H=h(X)$ , яка залежить від випадкової величини $\textstyle X$ . Цей погляд найчастіше зустрічається в контексті графових моделей.

Ці два погляди здебільшого рівнозначні. В кожному разі для цієї конкретної архітектури складові окремих шарів незалежні одна від одної (наприклад, складові $\textstyle g$ не залежать одна від одної за заданого їхнього входу $\textstyle h$ ). Це, природно, уможливлює якусь міру паралелізму у втіленні.

Такі мережі як попередня зазвичай називають мережами прямого поширення, оскільки їхній граф є орієнтованим ациклічним графом. Мережі з циклами зазвичай називають рекурентними. Такі мережі зазвичай зображують у спосіб, показаний у верхній частині малюнка, де $\textstyle f$ показано як залежну від самої себе. Проте не показано часову залежність, що мається на увазі.

Зворотне поширення

Алгоритми тренування зворотним поширенням поділяють на три категорії:

найшвидшого спуску (зі змінним темпом навчання та імпульсом, еластичним зворотним поширенням^[en]);
квазіньютонові (Бройдена — Флетчера — Гольдфарба — Шанно, однокрокової хорди);
Левенберга — Марквардта та спряженого градієнта (уточнення Флетчера — Рівза, уточнення Поляка — Ріб'єра, перезапуск Павелла — Біла, масштабований спряжений градієнт).^[4]

Алгоритм

Нехай $N$ — мережа з $e$ з'єднань, $m$ входів та $n$ виходів.

Нижче $x_{1},x_{2},\dots$ позначують вектори в $\mathbb {R} ^{m}$ , $y_{1},y_{2},\dots$ — вектори в $\mathbb {R} ^{n}$ , а $w_{0},w_{1},w_{2},\ldots$ — вектори в $\mathbb {R} ^{e}$ . Їх називають входами (англ. inputs), виходами (англ. outputs) та вагами (англ. weights) відповідно.

Мережа відповідає функції $y=f_{N}(w,x)$ , яка, за заданих ваг $w$ , відображує вхід $x$ до виходу $y$ .

У керованім навчанні послідовність тренувальних прикладів $(x_{1},y_{1}),\dots ,(x_{p},y_{p})$ створює послідовність ваг $w_{0},w_{1},\dots ,w_{p}$ , починаючи з деяких початкових ваг $w_{0}$ , зазвичай обираних випадково.

Ці ваги обчислюють по черзі: спочатку обчислюють $w_{i}$ , використовуючи лише $(x_{i},y_{i},w_{i-1})$ для $i=1,\dots ,p$ . Тоді виходом цього алгоритму стає $w_{p}$ , даючи нову функцію $x\mapsto f_{N}(w_{p},x)$ . Обчислення однакове на кожному кроці, тож описано лише випадок $i=1$ .

$w_{1}$ обчислюють з $(x_{1},y_{1},w_{0})$ , розглядаючи змінну ваг $w$ та застосовуючи градієнтний спуск до функції $w\mapsto E(f_{N}(w,x_{1}),y_{1})$ для пошуку локального мінімуму, починаючи з $w=w_{0}$ .

Це робить $w_{1}$ мінімізувальною вагою, знайденою градієнтним спуском.

Псевдокод навчання

Щоби втілити наведений вище алгоритм, необхідні явні формули для градієнта функції $w\mapsto E(f_{N}(w,x),y)$ , де функція $E(y,y')=|y-y'|^{2}$ .

Поширення

Поширення охоплює наступні етапи:

Пряме поширення крізь мережу для породження значень виходу
Розрахунок витрат (англ. cost, члену похибки, англ. error term)
Поширення збуджень виходу крізь мережу у зворотному напрямку з використанням тренувального цільового образу для породження дельт (різниць між цільовими та фактичними значеннями виходу) всіх нейронів виходу та прихованих нейронів.

Уточнювання ваг

Для кожної ваги:

Помножити дельту виходу ваги на збудження входу, щоби знайти градієнт ваги.
Відняти відношення (відсоток) градієнта ваги від неї.

Темп навчання (англ. learning rate) — це відношення (відсоток), яке впливає на швидкість і якість навчання. Що більше це відношення, то швидше тренується нейрон, але що це відношення менше, то точніше навчання. Знак градієнта ваги вказує, чи змінюється похибка прямо, чи обернено до ваги. Тож вагу необхідно оновлювати в протилежному напрямку, «спускаючись» з градієнта.

Навчання повторюють (на нових пакетах), доки мережа не запрацює адекватно.

Псевдокод

Псевдокод для алгоритму стохастичного градієнтного спуску для навчання тришарової мережі (один прихований шар):

встановити початкові значення ваг мережі (часто малі випадкові значення)
робити
  для кожного тренувального прикладу під назвою пр. зробити
    передбачення = вихід нейронної мережі(мережа, пр.) // прямий прохід
    факт = результат вчителя(пр.)
    обчислити похибку (передбачення - факт) на вузлах виходу
    обчислити  $\Delta w_{h}$  для всіх ваг з прихованого шару до шару виходу // зворотний прохід
    обчислити  $\Delta w_{i}$  для всіх ваг з шару входу до прихованого шару // продовження зворотного проходу
    уточнити ваги мережі // шар входу оцінкою похибки не змінюється
поки рівень похибки не стане прийнятно низьким
повернути мережу

Рядки, позначені як «зворотний прохід», може бути втілено за допомогою алгоритму зворотного поширення, який обчислює градієнт похибки мережі щодо змінюваних ваг мережі.^[5]

Примітки

↑ ^а ^б Zell, Andreas (2003). chapter 5.2. Simulation neuronaler Netze [Simulation of Neural Networks] (German) (вид. 1st). Addison-Wesley. ISBN 978-3-89319-554-1. OCLC 249017987. (нім.)
↑ DAWSON, CHRISTIAN W (1998). An artificial neural network approach to rainfall-runoff modelling. Hydrological Sciences Journal. 43 (1): 47—66. doi:10.1080/02626669809492102. (англ.)
↑ The Machine Learning Dictionary. www.cse.unsw.edu.au. Архів оригіналу за 26 серпня 2018. Процитовано 18 серпня 2019. (англ.)
↑ M. Forouzanfar; H. R. Dajani; V. Z. Groza; M. Bolic & S. Rajan (July 2010). Comparison of Feed-Forward Neural Network Training Algorithms for Oscillometric Blood Pressure Estimation. 4th Int. Workshop Soft Computing Applications. Arad, Romania: IEEE. (англ.)
↑ Werbos, Paul J. (1994). The Roots of Backpropagation. From Ordered Derivatives to Neural Networks and Political Forecasting. New York, NY: John Wiley & Sons, Inc. (англ.)