Гіперпараметр (машинне навчання)У машинному навчанні гіперпараметр — це параметр, значення якого використовується для керування процесом навчання. На відміну від цього, значення інших параметрів (як правило, вага вузлів) виводяться за допомогою навчання. Гіперпараметри можна класифікувати як гіперпараметри моделі, які неможливо визначити під час підгонки моделі до навчального набору[en], оскільки вони відносяться до задачі вибору моделі, або гіперпараметри алгоритму, які в принципі не впливають на продуктивність моделі, але впливають на швидкість і якість навчального процесу. Прикладом гіперпараметра моделі є топологія та розмір нейронної мережі. Прикладами гіперпараметрів алгоритму є швидкість навчання та розмір пакету, а також розмір міні-пакету. Розмір пакету може посилатися на повну вибірку даних, де розмір міні-партії буде меншим набором вибірки. Різні алгоритми навчання моделі вимагають різних гіперпараметрів, деякі прості алгоритми (наприклад, звичайна регресія найменших квадратів[en]) не потребують жодного. Враховуючи ці гіперпараметри, навчальний алгоритм вивчає параметри з даних. Наприклад, LASSO[en] — це алгоритм, який додає гіперпараметр регуляризації до звичайної регресії за найменшими квадратами, який необхідно встановити перед оцінкою параметрів за допомогою навчального алгоритму.[1] МіркуванняЧас, необхідний для навчання та тестування моделі, може залежати від вибору її гіперпараметрів.[2] Гіперпараметр зазвичай має безперервний або цілочисельний тип, що призводить до проблем оптимізації змішаного типу.[2] Існування одних гіперпараметрів залежить від значення інших, наприклад, розмір кожного прихованого шару в нейронній мережі може залежати від кількості шарів.[2] Важкі для сприйняття параметриЗазвичай, але не завжди, гіперпараметри неможливо вивчити за допомогою відомих методів, заснованих на градієнті (таких як градієнтний спуск, LBFGS), які зазвичай використовуються для вивчення параметрів. Ці гіперпараметри — це параметри, що описують представлення моделі, які неможливо дізнатися за допомогою звичайних методів оптимізації, але, тим не менш, впливають на функцію втрат. Прикладом може бути гіперпараметр допуску для помилок у машинах опорних векторів. Параметри, які не підлягають навчаннюІноді гіперпараметри не можна дізнатися з навчальних даних, оскільки вони швидко збільшують ємність моделі і можуть знизити функцію втрат до небажаного мінімуму (перевірка даних і збільшення шуму в даних), на відміну від правильного відображення насиченості даних. Наприклад, якщо ми розглядатимемо степінь многочлена, що відповідає моделі регресії, як параметр, який можна навчати, степінь буде збільшуватися до тих пір, поки модель ідеально не відповідатиме даним, що дасть низьку похибку навчання, але не велику продуктивність узагальнення. Можливість налаштуванняБільшу частину змін продуктивності можна пояснити лише кількома гіперпараметрами.[2][3][4] Можливість налаштування алгоритму, гіперпараметра або взаємодіючих гіперпараметрів є мірою того, наскільки продуктивність може бути досягнута шляхом їх налаштування.[5] Для LSTM, в той час як швидкість навчання, а потім розмір мережі є його найважливішими гіперпараметрами,[6] пакетна робота та імпульс не мають значного впливу на його продуктивність.[7] МіцністьВнутрішня стохастичність навчання прямо означає, що емпірична продуктивність гіперпараметра не обов'язково є його справжньою продуктивністю.[2] Методи, які не стійкі до простих змін гіперпараметрів, випадкових початкових даних або навіть різних реалізацій одного і того ж алгоритму, не можуть бути інтегровані в критично важливі системи керування без значного спрощення та надійності.[8] Алгоритми навчання з підкріпленням, зокрема, вимагають вимірювання їхньої ефективності щодо великої кількості випадкових зародків, а також вимірювання їх чутливості до вибору гіперпараметрів.[8] Їхня оцінка за допомогою невеликої кількості випадкових зерен не фіксує належним чином продуктивність через високу дисперсію.[8] Деякі методи навчання з підкріпленням, напр DDPG (Deep Deterministic Policy Gradient) є більш чутливими до вибору гіперпараметрів, ніж інші.[8] ОптимізаціяОптимізація гіперпараметрів знаходить набір гіперпараметрів, що дає оптимальну модель, яка мінімізує попередньо визначену функцію втрат на заданих тестових даних.[2] Цільова функція приймає набір гіперпараметрів і повертає пов'язані втрати.[2] ВідтворюваністьОкрім налаштування гіперпараметрів, машинне навчання передбачає збереження й упорядкування параметрів і результатів, а також забезпечення їх відтворюваності.[9] За відсутності надійної інфраструктури для цієї мети код дослідження часто розвивається швидко і ставить під загрозу такі важливі аспекти, як бухгалтерський облік і відтворюваність.[10] Онлайн-платформи для співпраці для машинного навчання йдуть далі, дозволяючи вченим автоматично обмінюватися, організовувати та обговорювати експерименти, дані та алгоритми.[11] Відтворюваність може бути особливо важкою для моделей глибокого навчання.[12] Існує ряд відповідних служб і програмного забезпечення з відкритим кодом: Послуги
Програмне забезпечення
Див. такожПримітки
|
Portal di Ensiklopedia Dunia