Диференційна приватністьДиференційна приватність — це формальна теорія забезпечення конфіденційності персональних даних при публікації статистичних аналізів або моделей машинного навчання, обчислених на базі персональних даних. Диференційна приватність гарантує те, що персональні дані неможливо точно відновити з результатів обчислень за рахунок контрольованого додавання випадкових значень в процес обчислень. МотиваціяНехай існує довірена сторона, яка володіє масивом чутливих персональних даних (наприклад медичні записи, відомості щодо перегляду кіно або використання електронної пошти) і бажає надавати узагальнену статистичну інформацію про ці дані. Така система називається статистичною базою даних. Однак надання узагальненої статистичної інформації про дані може розкрити деяку інформацію щодо осіб. Дійсно, різноманітні ad-hoc підходи до анонімізації опублікованих записів були подолані, коли дослідники поєднували вміст двох або більше окремих баз даних. Диференційна приватність — це підхід для формалізації приватності у статистичних базах даних, запропонований для захисту від подібних методів деанонімізації. Приз NetflixНаприклад, у жовтні 2006 Netflix запропонував приз у 1 мільйон доларів США за покращення власної системи формування рекомендацій на 10 %. Netflix також випустив тренувальний масив даних для змагання розробників. При випуску цього масиву даних Netflix зазначив, що для захисту приватності користувачів уся персональна інформація, що ідентифікує користувачів, та усі ідентифікатори користувачів замінені на випадкові ідентифікатори. Netflix — не єдиний портал оцінювання кінофільмів у мережі, існують і інші, зокрема IMDb. На IMDb користувачі можуть реєструватись і оцінювати фільми без анонімізації. Arvind Narayanan та Vitaly Shmatikov, дослідники у University of Texas at Austin, поєднали анонімізований масив даних Netflix з базою даних IMDb (використовуючи дату оцінювання) і частково деанонімізували масив даних Netflix, скомпрометувавши ідентичність деяких користувачів[1]. База даних медичних випадків Комісії з групового страхування штату МассачусетсLatanya Sweeney з Carnegie Mellon University поєднала анонімізовану базу даних (у якій зберігалися дата народження, стать та поштовий індекс кожного пацієнта) з записами виборців, і змогла визначити медичний запис губернатора штату Массачусетс[2]. Метадані та бази даних мобільних операторівDe Montjoye та інші з MIT ввели поняття унікальності і показали, що 4 просторово-часових відмітки з приблизними моментами часу і просторовими координатами достатньо, щоб ідентифікувати 95 % з 1,5 млн людей з бази даних мобільних операторів[3]. Подальше дослідження показує, що ці обмеження мають місце навіть тоді, коли роздільна здатність набору даних є низькою, що означає, що навіть грубий або розмитий набір даних мобільних операторів та метадані забезпечують малу анонімність. ОглядУ 2006, Cynthia Dwork визначила галузь диференційної приватності з використанням результатів роботи, початої у 2003. У цій роботі показано неможливість досягти семантичних цілей безпеки, що відносяться до роботи Tore Dalenius з 1970-х, і визначено нові методи для обмеження зростаючого ризику для персональних даних від їх включення до статистичної бази даних. Це дозволяє у багатьох випадках надати дуже точну статистику на підставі бази даних із забезпеченням високого рівня приватності.[4][5] Принцип та ілюстраціяДиференційна приватність — це процес, який вносить випадковість у дані. Простим прикладом, розробленим у соціальних науках,[6] є опитування осіб «Ви володієте атрибутом A?», за наступною процедурою:
Приватність забезпечується через забезпечення відмовності щодо індивідуальних відповідей. Хоча ці дані з багатьма відповідями є значимими, позитивні відповіді дали чверть осіб, які не мали атрибута A і три чверті осіб, які володіють атрибутом A. Якщо p справжня частка осіб з A, тоді буде отримано (1/4)(1-p) + (3/4)p = (1/4) + p/2 позитивних відповідей. Звідси можна обчислити p. PS: зокрема, якщо володіння атрибутом A є синонімом незаконних дій, відповідь «Так» не є зізнанням у злочині, оскільки існує ненульова імовірність хибнопозитивної відповіді «Так». Формальне визначення та приклад застосуванняНехай позитивне дійсне число і є увипадковленим алгоритмом, який приймає набір даних на вході, що представляє дії довіреної сторони, яка розпоряджається даними. Нехай є образом відображення . Алгоритм є -диференційно приватним, якщо для всіх наборів даних та , які відрізняються у єдиному елементі (даних щодо однієї особи), для всіх підмножин з , де імовірність отримана з випадковості, яку використовує алгоритм.[6] У відповідності до цього визначення диференційна приватність є умовою роботи механізму публікації (довіреної сторони, яка публікує інформацію щодо набору даних), а не самого набору даних. Інтуітивно це означає, що для двох довільних схожих наборів даних диференційно приватний алгоритм буде праціювати схоже для обох наборів даних. Визначення гарантує, що присутність або відсутність особи не значно вплине на фінальний результат. Наприклад представимо, що ми маємо базу баних медичних записів де кожен запис є парою (Ім'я, X), де є булевою змінною, яка позначає наявність діабету у особи. Наприклад:
Тепер припустимо, що зловимсний користувач (порушник) бажає визначити наявність діабету у Чендлера. Також припустимо, що порушник також знає у якому рядку бази даних розміщено запис Чендлера. Тепер припустимо, що порушнику дозволено використовуати тільки часткову форму запиту , яка повертає часткову суму перших рядків ствопчика у базі даних. Зазвичай, щоб визначити наявність діабету у Чендлера порушник виконує запити та , потім обчислює їх різницю. У цьому прикладі , а , тому різниця дорівнює 1. Це означає, що у полі рядка Чендлера знаходиться 1. Це приклад показує, як може бути скомпрометована інформація про особу навіть без точного запиту щодо особи. Продовжуючи цей приклад, якщо ми сконструюємо базу даних заміною (Чендлер, 1) на (Чендлер, 0), то порушник матиме можливість відрізнити від обчисленням для кожного набору даних. Якщо порушнику знадобиться отримати значення використовуючи -диференційно приватний алгоритм, для достатньо малого , то він не зможе розрізнити два набори даних. ЧутливістьНехай є позитивним цілим, є колекцією наборів даних, і є функцією. Чутливість[7] функції, позначена , визначається як
У прикладі медичної бази даних вище, якщо ми приймемо є функцією , тоді чутливість функції дорівнює одиниці, оскільки зміна одного запису у базі даних призводить до зміни значення функції на нуль або одиницю. Існують методи (описані нижче), використання яких дозволяє створювати диференційно приватний алгоритм для функцій з низькою чутливістю.
Компроміс між корисністю та приватністюКомпроміс між точністю статистики, отриманої із дотриманням приватності, і приватністю описується параметром ε.[8][9][10][11] Інші нотації диференційної приватностіДля деяких застосувань властивість диференційної приватності є занадто суворою, тому запропоновані слабші версії властивостей приватності. Вони включають (ε, δ)-диференційну приватність,[12] рандомізовану диференційну приватність,[13] і приватність з метрикою.[14] Диференційно приватні механізмиОскільки диференційна приватність є імовірнісною концепцією, будь-який диференційно приватний механізм обов'язково є рандомізованим. Деякі з них, як механізм Лапласа, описаний нижче, покладаються на додавання контрольованого шуму до функції, яку потрібно обчислити. Інші, як еспоненційний механізм[en][15] використовують післявибірку[16] замість залежних від галузі використання розподілів. Механізм ЛапласаБагато диференційно приватних методів додають контрольований шум до функцій з низькою чутливістю.[7] Механізм Лапласа додає шум Лапласа (шум з розподілом Лапласа), який може бути виражений функцією щільності імовірності , яка має математичне сподівання, що дорівнює нулю, і стандартне відхилення ). У нашому випадку визначено вихідну функцію від як функцію з дійсними значеннями як де and є оригінальною функцією з дійсними значеннями, яку планувалося виконати над базою даних. Звідси може бути представлена як неперервну випадкову змінну, де де щонайменше . Можна представити як фактор приватності . Таким чином відповідає визначенню диференційно приватного механізму. Якщо застосувати цю концепцію до нашого прикладу з хворими на діабет, тоді це слідує з факту, що як -диференційно приватний алгоритм повинен мати . Хоча було використано шум Лапласа, можуть бути використані шуми з іншим розподілом (наприклад нормальним розподілом), але для цього потрібне деяке послаблення визначення диференційної приватності.[2] ПоєднуваністьПослідовне поєднанняЯкщо запитати ε-диверенційно приватний механізм разів, і рандомізація механізму є незалежною для кожного запиту, тоді результат буде -диференційно приватним. У загальному випадку, якщо наявні незалежних механізмів: , чиї гарантії приватності є диференційно приватними, відповідно, тоді будь-яка функція від: є -диференційно приватною.[17] Паралельне поєднанняБільш того, якщо попередні механізми обчислені над підмножинами, що не перетинаються, приватної бази даних, тоді функція є -диференційно приватною.[17] Групова приватністьУ загальному випадку ε-диверенційна приватність створена для захисту приватності між базами даних, які відрізняються лише у одному рядку. Це означає, що жоден порушник із довільною допоміжною інформацією не може знати, чи один конкретний учасник надав свою інформацію. Тим не менше це також може бути поширене для потреби захисту баз даних, які відрізняються у рядках, де порушник із довільною допоміжною інформацією має можливість знати, що часткових учасників надали інформацію. Це може бути досягнуто тому що у випадку коли значень змінюються, ймовірність розширення обмежена замість ,[2] тобто для D1 та D2, які відрізняються у значеннях: Таким чином встановлення ε замість досягає бажаного результату (захисту значень). Іншими словами, замість ε-диференційно приватного захисту кожного значення, тепер група з значень є захищеною з параметром ε-диференційної приватності (і кожне значення є захищеним з параметром -диференційної приватності). Стабільні перетворенняПеретворення є -стабільним, якщо відстань Геммінга між та є не більше -разів відстані Геммінга між та для двох довільних баз даних . Теорема 2 у[17] стверджує, що якщо існує механізм такий, що є -диверенційно приватним, тоді складений механізм є -диференційно приватним. Це може бути узагальнене для групової приватності, оскільки розмір групи може бути розглянуте як відстань Геммінга між та (де містить групу та не містить). У цьому випадку є -диференційно приватним. ВикористанняДеякі використання, відомі на сьогодні:
Примітки
Посилання
|
Portal di Ensiklopedia Dunia