Федеративне навчання![]() Федеративне навчання — це метод машинного навчання, орієнтований на умови, в яких кілька суб'єктів (часто званих клієнтами) спільно навчають модель, при цьому дані, які використовуються для навчання розподіляються децентралізовано[1]. Це відрізняє його від машинного навчання, в якому дані зберігаються централізовано. Однією з основних визначальних характеристик федеративного навчання є неоднорідність даних. Через децентралізовану природу даних клієнтів немає гарантії, що вибірки даних, які зберігаються у кожного клієнта розподіляються незалежно й однаково. Федеративне навчання, як правило, пов'язане з такими аспектами, як конфіденційність даних, мінімізація даних і правами доступу до них. Його застосування охоплює різноманітні дослідницькі сфери, зокрема оборону, телекомунікації, інтернет речей і фармацевтику. ВизначенняВ умовах централізованого федеративного навчання використовується головний сервер для організації різних кроків алгоритмів і координації всіх вузлів, що беруть участь у процесі навчання. Сервер відповідає за відбір вузлів на початку процесу навчання і за агрегацію отриманих оновлень моделі. Оскільки всі вузли мають надсилати оновлення єдиному центру, то головний сервер може стати вузьким місцем у системі.[2] Основна відмінність між федеративним навчанням і розподіленим навчанням полягає в припущеннях, зроблених щодо властивостей локальних наборів даних[3], оскільки розподілене навчання перш за все спрямоване на розпаралелювання обчислювальної потужності, тоді як федеративне навчання спрямоване на навчання на гетерогенних наборах даних. Хоча розподілене навчання також спрямоване на навчання однієї моделі на кількох серверах, загальним основним припущенням є те, що локальні набори даних є незалежними та однаково розподіленими (НОР) і мають приблизно однаковий розмір. Жодна з цих гіпотез не поширюється на федеративне навчання; натомість набори даних, як правило, неоднорідні, а їхні розміри можуть різнитися на кілька порядків. Крім того, клієнти, які беруть участь у федеративному навчанні, можуть бути ненадійними, оскільки вони схильні до більшої кількості збоїв або відмов, оскільки вони зазвичай покладаються на менш потужні засоби зв'язку (наприклад, Wi-Fi) і системи з живленням від батарей (наприклад, смартфони та пристрої інтернету речей) порівняно з розподіленим навчанням, де вузлами, як правило, є центри обробки даних, які мають потужні обчислювальні можливості і з'єднані один з одним швидкісними мережами.[2] Математичне формулюванняЦільова функція федеративного навчання така:
де — кількість вузлів, — це вагові коефіцієнти моделі в розрізі вузла , і — локальна цільова функція вузла , яка описує вагові коефіцієнти моделі , які відповідають локальному набору даних вузла . Метою федеративного навчання є навчання спільної моделі на локальних наборах даних усіх вузлів, іншими словами:
Централізоване федеративне навчанняФедеративне навчання має на меті навчання алгоритму машинного навчання, наприклад, глибоких нейронних мереж, на числених локальних наборах даних, які зберігаються в локальних вузлах, без явного обміну зразками даних. Загальний принцип полягає в навчанні локальних моделей на локальних вибірках даних і обміні параметрами (наприклад, вагами і зсувами глибокої нейронної мережі) між цими локальними вузлами з певною частотою для створення глобальної моделі, спільної для всіх вузлів. ![]() Децентралізоване федеративне навчанняПри децентралізованому федеративному навчанні вузли можуть координувати свої дії для отримання глобальної моделі. Така структура запобігає одномоментним збоям, оскільки оновлення моделі поширюються лише між взаємопов'язаними вузлами без координації з центральним сервером. Тим не менш, топологія мережі може вплинути на ефективність процесу навчання.[2] Див. в статті про Федеративне навчання на основі блокчейну[4] і посилання в ній. Гетерогенне федеративне навчанняЗростаюча кількість прикладних областей включає великий набір гетерогенних клієнтів, наприклад, мобільні телефони та пристрої інтернету речей.[5] Більшість існуючих стратегій федеративного навчання припускають, що локальні моделі мають однакову глобальну архітектуру моделі. Нещодавно було створено новий фреймворк федеративного навчання під назвою HeteroFL для роботи з гетерогенними клієнтами, які мають дуже різні обчислювальні та комунікаційні можливості.[6] Підхід запропонований в HeteroFL може забезпечити навчання гетерогенних локальних моделей з динамічно змінюваною складністю обчислень та даних, які не є незалежними та однаково розподіленими, при цьому створюючи єдину точну глобальну модель висновування.[6][7] ![]() Основні властивостіІтераційне навчанняЩоб забезпечити хорошу продуктивність кінцевої, центральної моделі машинного навчання, федеративне навчання спирається на ітеративний процес, розбитий на атомарний набір клієнт-серверних взаємодій, який називається раундом федеративного навчання. Кожен раунд цього процесу складається з передачі поточного стану глобальної моделі вузлам-учасникам, навчання локальних моделей на цих локальних вузлах для створення набору потенційних оновлень моделі на кожному вузлі, а потім агрегування та обробки цих локальних оновлень в єдине глобальне оновлення і застосування його до глобальної моделі.[2] У наведеній нижче стратегії для агрегації використовується центральний сервер, тоді як локальні вузли виконують локальне навчання в залежності від вказівок центрального сервера. Однак інші стратегії при одноранговому підход призводять до тих же результатів, якщо використовувати протокол пліток[8] або метод консенсусу.[9] Припускаючи, що раунд складається з однієї ітерації процесу навчання, процедуру навчання можна узагальнити наступним чином:[10]
Розглянута вище процедура передбачає синхронне оновлення моделі. Нещодавні розробки в галузі федеративного навчання представили нові методи для подолання асинхронності в процесі навчання, або навчання з динамічно змінюваними моделями.[6] На відміну від синхронних підходів, де локальні моделі передаються одразу після завершення обчислень для всіх шарів нейронної мережі, асинхронні підходи використовують властивості нейронних мереж обмінюватися оновленнями моделей, як тільки стають доступними розрахунки для певного шару. Ці методи також часто називають розділеним навчанням[11][12],і їх можна застосовувати як під час навчання, так і під час висновування, незалежно від того, централізоване чи децентралізоване федеративне навчання.[2][6] Не незалежні і однаково-розподілені даніУ більшості випадків припущення про незалежні та однаково розподілені (НОР) вибірки на локальних вузлах не спрацьовує в умовах федеративного навчання. За таких умов продуктивність процесу навчання може суттєво відрізнятися залежно від незбалансованості локальних вибірок даних, а також від конкретного розподілу ймовірностей навчальних прикладів (тобто ознак і міток), що зберігаються на локальних вузлах. Для подальшого дослідження впливу таких даних (НОР), в наступному описі розглядаються основні категорії, представлені в препринті Пітера Кайруза та ін. від 2019 року.[2] Опис даних, що не належать до НОР, ґрунтується на аналізі спільної ймовірності між функціями та мітками для кожного вузла. Це дозволяє виокремити кожен внесок відповідно до конкретного розподілу, доступного на локальних вузлах. Основні категорії даних, які не є НОР, можна підсумувати таким чином:[2]
Втрата точності через дані, які не є НОД, можна обмежити, використовуючи більш досконалі засоби нормалізації даних, а ніж пакетну нормалізацію.[13] Примітки
|
Portal di Ensiklopedia Dunia