Кероване навчанняКеро́ване навча́ння,[1][2][3][4][5] контрольо́ване навча́ння,[6][7] навча́ння під на́глядом,[8] або навча́ння з учи́телем[7] (англ. supervised learning, SL) — це парадигма машинного навчання, в якій модель тренують об'єкти входу (наприклад, вектор змінних-передбачувачів) та бажане значення виходу (також відоме як мічений людиною керівний сигнал, англ. supervisory signal). Ці тренувальні дані обробляються, будуючи функцію, яка відображує нові дані на очікувані значення виходу.[9] Оптимальний сценарій дозволятиме алгоритмові правильно визначати значення виходу для небачених примірників. Це вимагає, щоб алгоритм навчання узагальнювався з тренувальних даних на небачені ситуації «розумним» чином (див. індуктивне упередження[en]). Цю статистичну якість алгоритму вимірюють через так звану похибку узагальнення. ![]()
Кроки для виконанняЩоби розв'язати задану задачу керованого навчання, слід виконати наступні кроки:
Вибір алгоритмуДоступний широкий спектр алгоритмів керованого навчання, кожен із яких має свої сильні та слабкі сторони. Єдиного алгоритму навчання, який працює найкраще з усіма задачами керованого навчання, не існує (див. теорему про неіснування безкоштовних обідів). У керованім навчанні слід враховувати чотири основні питання: Компроміс зміщення та дисперсіїПерше питання це компроміс між зміщенням (англ. bias) та дисперсією (англ. variance).[10] Уявімо, що ми маємо кілька різних, але однаково добрих тренувальних наборів даних. Алгоритм навчання зміщений для певного входу , якщо при тренуванні на кожному з цих наборів він систематично неправильний у передбачуванні правильного виходу для . Алгоритм навчання має велику дисперсію для певного входу , якщо при тренуванні на різних тренувальних наборах він передбачує різні виходи. Похибка передбачення навченого класифікатора пов'язана із сумою зміщення та дисперсії навченого алгоритму.[11] Як правило, існує компроміс між зміщенням і дисперсією. Алгоритм навчання з малим зміщенням повинен бути «гнучким», щоби могти добре допасовуватися до даних. Але якщо алгоритм навчання занадто гнучкий, він допасується до кожного тренувального набору даних по-різному, й відтак матиме велику дисперсію. Ключовим аспектом багатьох методів керованого навчання є те, що вони здатні підлаштовувати цей компроміс між зміщенням і дисперсією (автоматично, або шляхом надання параметра зміщення/дисперсії, який може налаштовувати користувач). Складність функції та обсяг тренувальних данихДруге питання полягає в кількості доступних тренувальних даних відносно складності «справжньої» функції (класифікатора чи функції регресії). Якщо справжня функція проста, то «негнучкий» алгоритм навчання з великим зміщенням і малою дисперсією зможе навчитися її з невеликої кількості даних. Але якщо справжня функція дуже складна (наприклад, тому, що вона передбачає складну взаємодію між багатьма різними ознаками входу, та поводиться по-різному в різних частинах простору входу), то функції можливо навчитися лише за допомогою великої кількості тренувальних даних у парі з «гнучким» алгоритмом навчання з малим зміщенням і великою дисперсією. Розмірність простору входуТретім питанням є розмірність простору входу. Якщо вектори ознак входу мають великі розміри, навчання функції може бути складним, навіть якщо справжня функція залежить лише від невеликої кількості цих ознак. Це пояснюється тим, що багато «додаткових» вимірів можуть заплутати алгоритм навчання й спричинити йому велику дисперсію. Отже, дані входу великої розмірності зазвичай вимагають налаштовування класифікатора на малу дисперсію та велике зміщення. На практиці, якщо інженер може вручну вилучити нерелевантні ознаки з даних входу, це, швидше за все, покращить точність навченої функції. Крім того, існує багато алгоритмів для обирання ознак, які намагаються визначати релевантні ознаки, та відкидати нерелевантні. Це приклад загальнішої стратегії зниження розмірності, спрямованої на відображення даних входу до простору нижчої розмірності перед запуском алгоритму керованого навчання. Шум у значеннях виходуЧетвертим питанням є міра шуму в бажаних значеннях виходу (керівних цільових змінних[en], англ. target variables). Якщо бажані значення виходу часто неправильні (через людський чинник чи похибки давача), то алгоритм навчання не повинен намагатися знайти функцію, яка відповідає тренувальним прикладам точно. Спроба занадто ретельно допасуватися до даних призводить до перенавчання. Якщо функція, якої ви намагаєтеся навчитися, занадто складна для вашої моделі навчання, ви можете перенавчитися її, навіть якщо похибки вимірювання (стохастичний шум) відсутні. У такій ситуації частина цільової функції, яку неможливо змоделювати, «псує» ваші навчальні дані — це явище назвали детермінованим шумом[en]. Якщо присутній будь-який тип шуму, краще використовувати оцінювач з більшим зміщенням і меншою дисперсією. На практиці існує кілька підходів для полегшення шуму в значеннях виходу, таких як рання зупинка, щоби запобігати перенавчанню, а також виявляння та усування шумових тренувальних прикладів перед тренуванням алгоритму керованого навчання. Існує кілька алгоритмів, які встановлюють шумові тренувальні приклади, а усунення ймовірних шумових тренувальних прикладів перед тренуванням знижує похибку узагальнення зі статистичною значущістю.[12][13] Інші чинники, які слід враховуватиДо інших чинників, які слід враховувати при виборі та застосуванні алгоритму навчання, належать наступні:
Розглядаючи нове застосування, інженер може порівняти кілька алгоритмів навчання та експериментально визначити, який із них працює з наявною задачею найкраще (див. перехресне затверджування). Настроювання продуктивності алгоритму навчання може займати дуже багато часу. Враховуючи фіксовані ресурси, часто краще витрачати більше часу на збирання додаткових тренувальних даних та інформативніших ознак, ніж витрачати додатковий час на настроювання алгоритмів навчання. АлгоритмиНайширше використовувані алгоритми навчання:
Як працюють алгоритми керованого навчанняДля заданого набору з тренувальних прикладів, вигляду , такого, що — вектор ознак -го прикладу, а — його мітка (англ. label, тобто, клас), алгоритм навчання шукає функцію , де — простір входу, а — простір виходу. Функція це елемент деякого простору можливих функцій , зазвичай званого простором гіпотез (англ. hypothesis space). Іноді зручно подавати за допомогою оцінкової функції[en] , такої, що визначають як таку, що повертає значення , яке дає найвищу оцінку: . Нехай позначує простір оцінкових функцій. Хоча та можуть бути будь-якими просторами функцій, багато алгоритмів навчання це ймовірнісні моделі, де набуває вигляду моделі умовної ймовірності , або набуває вигляду моделі спільної ймовірності . Наприклад, наївний баєсів класифікатор та лінійний розділювальний аналіз це моделі спільної ймовірності, тоді як логістична регресія це модель умовної ймовірності. Є два основні підходи до вибору або : мінімізація емпіричного ризику та мінімізація структурного ризику[en].[14] Мінімізація емпіричного ризику шукає функцію, яка найкраще допасовується до тренувальних даних. Мінімізація структурного ризику включає штрафну функцію (англ. penalty function), яка контролює компроміс зміщення/дисперсії. В обох випадках вважають, що тренувальний набір складається з вибірки незалежних однаково розподілених пар, . Щоби вимірювати, наскільки добре функція допасовується до тренувальних даних, визначають функцію втрат . Для тренувального прикладу втрата передбачення значення становить . Ризик (англ. risk) функції визначають як очікувані втрати . Їх можливо оцінювати з тренувальних даних через
Мінімізація емпіричного ризикуПри мінімізації емпіричного ризику алгоритм керованого навчання шукає таку функцію , яка мінімізує . Тож алгоритм керованого навчання можливо сконструювати, застосувавши алгоритм оптимізації для пошуку . Коли — умовний розподіл імовірності , а функція втрат — від'ємна логарифмічна правдоподібність: , то мінімізація емпіричного ризику рівнозначна оцінці максимальної правдоподібності. Коли містить багато функцій-кандидатів або тренувальний набір недостатньо великий, мінімізація емпіричного ризику призводить до великої дисперсії та поганого узагальнення. Алгоритм навчання здатний запам'ятовувати тренувальні приклади без доброго узагальнення. Це називають перенавчанням. Мінімізація структурного ризикуМінімізація структурного ризику[en] має на меті запобігати перенавчанню включенням до оптимізації регуляризаційного штрафу. Регуляризаційний штраф можливо розглядати як втілення певного вигляду леза Оккама, яке віддає перевагу простішим функціям перед складнішими. Застосовували широкий спектр штрафів, які відповідають різним визначенням складності. Для прикладу розгляньмо випадок, коли функція є лінійною функцією вигляду
Популярним регуляризаційним штрафом є , що є квадратом евклідової норми ваг, також відомим як норма . До інших норм належать норма , , та «норма» [en], яка є числом ненульових . Штраф буде позначувано через . Задача оптимізації керованого навчання полягає в тому, щоби знайти функцію , яка мінімізує Параметр керує компромісом зміщення та дисперсії. Коли , це забезпечує мінімізацію емпіричного ризику з малим зміщенням та великою дисперсією. Коли великий, алгоритм навчання матиме велике зміщення й малу дисперсію. Значення можливо обирати емпірично за допомогою перехресного затверджування. Штраф за складність має баєсову інтерпретацію як від'ємна логарифмічна апріорна ймовірність , , у випадку чого є апостеріорною ймовірністю . Породжувальне тренуванняОписані вище методи тренування є методами розрізнювального тренування (англ. discriminative training), оскільки вони прагнуть знайти функцію , яка добре розрізнює відмінні значення виходу (див. розрізнювальну модель). Для особливого випадку, коли є спільним розподілом імовірності, а функція втрат є негативною логарифмічною правдоподібністю кажуть, що алгоритм мінімізації ризику виконує породжувальне тренування (англ. generative training), оскільки можливо розглядати як породжувальну модель, яка пояснює, як було породжено дані. Алгоритми породжувального тренування часто простіші та обчислювально ефективніші за алгоритми розрізнювального тренування. У деяких випадках розв'язок може бути обчислено у замкненому вигляді, як у наївному баєсовому класифікаторі та лінійному розділювальному аналізі. УзагальненняІснує кілька способів узагальнення стандартної задачі керованого навчання:
Підходи та алгоритми
Застосування
Загальні питання
Див. такожПримітки
Посилання
|
Portal di Ensiklopedia Dunia