Теорема збіжності перцептрону
Теорема збіжності перцептрона — це теорема, описана і доведена Френком Розенблатом (за участю Блока, Джозефа, Кестена та інших дослідників, що працювали разом з ним). Вона показує, що елементарний перцептрон, що навчається за методом корекції помилки (незалежно від того з квантуванням або без нього), а також незалежно від початкового стану вагових коефіцієнтів, послідовності появи стимулів — завжди приведе до досягнення вирішення за скінченний проміжок часу. Ф. Розенблат також довів низку допоміжних теорем, наслідки яких говорять про умови та архітектуру нейронної мережі та методи навчання для успішного виконання поставленої задачі. Теореми існування вирішення для універсальних перцептронів![]() Перш ніж довести основну теорему збіжності перцептрона, Ф. Розенблат показав, що архітектура перцептрона достатня для того, щоб отримати рішення будь-якої мислимого завдання на класифікацію, тобто тим самим перцептрон являє собою «універсальну систему» для класифікації.
Далі Ф. Розенблат показав і довів у теоремі 2, що необхідними, але ще не достатніми умовами існування рішення, є такі:
Друга умова потребує пояснення. Коефіцієнтом зміщення для А-елемента Ф. Розенблат називав відношення числа стимулів у навчальній вибірці, які відносяться до одного класу, і збуджують даний А — елемент, до числа стимулів, що відносяться до іншого класу, але також збуджують цей же А-елемент. Порушення другої умови робить відношення постійним для А-елементів, що реагують на стимули з такої підпослідовності появи стимулів на входах перцептрона. І через це, як доводиться в теоремі 2, щонайменше один зі стимулів буде класифікований неправильно. Розенблат також показав, що цих умов буде недостатньо, на наступному прикладі:
Цей приклад задовольняє двом необхідним умовам, але з усім тим не має вирішення. Щоб отримати потрібну класифікацію для першого класу, потрібно:
Щоб отримати потрібну класифікацію для другого класу, потрібно:
Звідси видно, що якщо вагові коефіцієнти для А-елементів № 1 і № 2 позитивні, і хоча б один з вагових коефіцієнтів для А-елементів № 3 та № 4 позитивний, то тим самим ми можемо домогтися, щоб сума ваг № 1(+), № 2(+) та № 3(-) була негативною, але в такому разі вага № 4 повинна залишатися позитивною, і тоді сума № 1(+), № 2(+) і № 4(+) ніяк не може бути від'ємною. Таким чином, або стимул № 4, або стимул № 5 будуть класифіковані неправильно. Це й називається відсутність сходження при вирішенні класифікації. У чистому вигляді достатні умови Розенблат описує тільки пізніше в такій теоремі, запропонованій Джозефом:
але оскільки це математичне представлення, хоча й елегантніше, але з усім тим воно мало що говорить про те які потрібно виконати умови в термінах архітектури перцептрона, Розенблат спершу доводить наступну теорему:
Але практично значимими є три наслідки з цієї теореми:
Основна теорема збіжностіВ основній теоремі збіжності Ф. Розенблат показує, що існуючі можливі рішення можуть бути досягнуті саме при застосуванні алгоритму навчання з корекцією помилки:
Додаткові теореми збіжностіУ ряді наступних теорем Ф. Розенблат показує якими характеристиками повинен володіти алгоритм навчання, щоб він міг досягти рішення.
Критика МінськогоМарвін Мінський навів низку своїх доказів теореми збіжності перцептрона. Але його докази дозволили судити про величину вагових коефіцієнтів, що істотно для зберігання їх в пам'яті комп'ютера, а також про кількість необхідних корекцій вагових коефіцієнтів, що важливо при оцінці швидкості навчання перцептрона. Для оцінки ємності пам'яті необхідної для зберігання вагових коефіцієнтів, при вирішенні навчанні предиката «парність», Мінський виходив з нижченаведених міркувань. Для будь-якого однакового подання коефіцієнтів необхідно по біт на кожен, де — кількість точок на сітківці перцептрона. Це випливає з того, що таким має бути вага найбільш великого коефіцієнта, щоб виконувалися умови існування рішення. Максимальна необхідна кількість коефіцієнтів буде . Отже, буде потрібно біт. Якщо порівнювати це число з тим, що вийде у разі, якщо запам'ятати всі можливі зображення, які можуть бути нанесені на сітківку перцептрона, то знадобиться ємність = . За таких припущень виходить, що для вагових коефіцієнтів перцептрона ємності потрібно практично стільки ж, як для запам'ятовування всіх можливих зображень. Для оцінки числа ітерацій, потрібних елементарному перцептрону, щоб визначити вагові коефіцієнти, Мінський проаналізував навчання предиката «парність», який є одним з найбільш теоретично складних для перцептрона. При цьому він узяв перцептрон з найменшим можливим числом А-елементів, а отже, і з найменшим числом вагових коефіцієнтів. І для цього випадку він визначив нижньою і верхньою межами числа корекцій: , де — кількість точок на сітківці перцептрона. Тому критика Мінського щодо збіжності перцептрона вказує на те, що:
то перцептрон потребує нереальної великої пам'яті комп'ютера і тривалого часу навчання, навіть попри те, що теорема збіжності говорить про скінченне число ітерацій. Тут, слід додати тільки те, що для більшості задач розпізнавання реальних зображень не потрібно знаходити такі математичні функції, а відмінні риси зображень різного класу можуть бути знайдені враховуючи лише маленьку область, яка, наприклад, складається з 20 точок з 8000 можливих. А побудувавши такі предикати від 20 елементів (предикати відповідають А-елементам) можна не враховуючи всі особливості зображення, класифікувати їх за класами з огляду на лише деякі з них (як правило число таких предикатів, як було сказано вище знаходяться в межах 60-80 % від числа всіх зображень). Це вказує на той факт, що кількість осмислених зображень в певній розмірності на кілька порядків менше, ніж число всіх можливих зображень. І якщо не вимагати виконання певної математичної функції (зсув, поворот) над такими осмисленими зображеннями, стає ясним, що перцептрон може не тільки оптимально запам'ятовувати для класифікації ряд зображень, але і працювати у певному сенсі алгоритмом стиснення зображень із втратами, і точно відносити їх до потрібного класу. Див. також |
Portal di Ensiklopedia Dunia