Оцінка апостеріорного максимуму

Оці́нка ма́ксимуму апостеріо́рної імові́рності (МАІ, англ. maximum a posteriori probability estimate, MAP) у баєсовій статистиці — це мода апостеріорного розподілу. МАІ може застосовуватися для отримання точкової оцінки неспостережуваної величини на базі емпіричних даних. Вона є тісно пов'язаною з методом максимальної правдоподібності (МП, англ. maximum likelihood, ML) Фішера, але застосовує розширену цільову функцію, що включає апріорний розподіл оцінюваної величини. Таким чином, МАІ можна розглядати як регуляризацію оцінки МП.

Опис

Припустімо, що ми хочемо оцінити неспостережуваний параметр розподілу $\theta$ на базі спостережень $x$ . Нехай $f$ буде вибірковим розподілом $x$ , так що $f(x|\theta )$ є ймовірністю $x$ , коли підлеглий параметр розподілу є $\theta$ . Тоді функція

\theta \mapsto f(x|\theta )\!

є відомою як функція правдоподібності, а оцінка

{\hat {\theta }}_{\mathrm {ML} }(x)={\underset {\theta }{\operatorname {arg\,max} }}\ f(x|\theta )\!

є оцінкою максимальної правдоподібності $\theta$ .

Тепер припустімо, що існує апріорний розподіл $\theta$ , $g$ . Це дозволяє нам розглядати $\theta$ як випадкову змінну в баєсовій статистиці. Тоді апостеріорний розподіл $\theta$ є наступним:

\theta \mapsto f(\theta |x)={\frac {f(x|\theta )\,g(\theta )}{\displaystyle \int _{\vartheta \in \Theta }f(x|\vartheta )\,g(\vartheta )\,d\vartheta }}\!

де $g$ є функцією густини $\theta$ , а $\Theta$ є областю визначення $g$ . Це є прямим застосуванням теореми Баєса.

Відтак метод оцінки апостеріорного максимуму оцінює $\theta$ як моду апостеріорного розподілу цієї випадкової змінної:

{\hat {\theta }}_{\mathrm {MAP} }(x)={\underset {\theta }{\operatorname {arg\,max} }}\ {\frac {f(x|\theta )\,g(\theta )}{\displaystyle \int _{\vartheta }f(x|\vartheta )\,g(\vartheta )\,d\vartheta }}={\underset {\theta }{\operatorname {arg\,max} }}\ f(x|\theta )\,g(\theta ).\!

Знаменник цього апостеріорного розподілу (так звана статистична сума^[en]) не залежить від $\theta$ , і тому не відіграє ролі в оптимізації. Зверніть увагу, що коли апріорне $g$ є рівномірним (тобто сталою функцією), то оцінка $\theta$ МАІ збігається з оцінкою МП. І що коли функція втрат має вигляд

L(\theta ,a)={\begin{cases}0&{\mbox{, if }}|a-\theta |<c\\1&{\mbox{, otherwise}}\\\end{cases}}\!

та $c$ прямує до 0, то послідовність баєсових оцінок наближається до оцінювача МАІ, за умови, що розподіл $\theta$ є одномодовим. Але в цілому оцінювач МАІ не є баєсовим оцінювачем, хіба що якщо $\theta$ є дискретною.

Обчислення

Оцінку МАІ може було обчислювано кількома шляхами:

Аналітичним, коли моду (моди) апостеріорного розподілу може бути задано в замкненій формі^[en]. Це той випадок, коли застосовуються спряжені апріорні.
Шляхом чисельної оптимізації, такої як метод спряжених градієнтів або метод Ньютона. Це зазвичай вимагає перших або других похідних, що має бути виражено чи то аналітично, чи то чисельно.
Шляхом видозміни алгоритму очікування-максимізації. Це не вимагає похідних апостеріорної густини.
Методом Монте-Карло із застосуванням імітації відпалу.

Критика

Хоча оцінка МАІ і є границею баєсових оцінок (при функції втрат 0-1), вона не є типовим представником баєсових методів у цілому. Причина в тому, що оцінки МАІ є точковими, тоді як баєсові методи характеризуються використанням розподілів для підсумовування даних та видачі висновків: так, баєсові методи тяжіють замість цього до повідомлення апостеріорного середнього або медіани разом із імовірними інтервалами. В обох випадках причиною є те, що ці оцінки є оптимальними при втратах із квадратичною або лінійною помилкою відповідно, — а вони є характернішими представниками типових функцій втрат, — і те, що апостеріорний розподіл може не мати простої аналітичної форми: в такому випадку цей розподіл може бути симульовано за допомогою методик Монте-Карло марковських ланцюгів, тоді як оптимізація для пошуку цієї моди (мод) може бути складною, або неможливою.^{[джерело?]}

У багатьох типах моделей, як наприклад сумішевих^[en], апостеріорне може бути бімодальним. У такому разі звичною порадою є обирати найвищу моду: це не завжди є прийнятним (глобальна оптимізація є складною задачею), а в деяких випадках навіть і неможливим (як при виникненні проблем ідентифіковності^[en]). До того ж, найвища мода може бути не характерною для більшості апостеріорного.

Нарешті, на відміну від оцінок МП, оцінка МАІ не є інваріантною відносно параметризації^[en]. Перемикання з однієї параметризації на іншу включає введення якобіану, що впливає на положення максимуму.^[1]

Як приклад різниці між згаданими вище баєсовими оцінками (середнього та медіани) та використанням оцінки МАІ, розгляньмо випадок, коли необхідно класифікувати входи $x$ як або позитивні, або негативні (наприклад, позички як ризиковані або безпечні). Припустімо, що існує лише три можливі гіпотези правильного методу класифікації, $h_{1}$ , $h_{2}$ and $h_{3}$ , з апостеріорними 0.4, 0.3 та 0.3 відповідно. Припустімо, що заданий новий зразок $x$ гіпотеза $h_{1}$ класифікує як позитивний, тоді як дві інші — як негативний. При застосуванні оцінки МАІ для точного класифікатора $h_{1}$ , $x$ класифікується як позитивний, тоді як баєсові оцінки зробили би усереднення над усіма гіпотезами, та класифікували би $x$ як негативний.

Приклад

Припустімо, що нам дано послідовність $(x_{1},\dots ,x_{n})$ незалежних однаково розподілених випадкових змінних $N(\mu ,\sigma _{v}^{2})$ та апріорний розподіл $\mu$ , заданий $N(\mu _{0},\sigma _{m}^{2})$ . Ми хочемо отримати оцінку МАІ $\mu$ .

Функцію, що потрібно максимізувати, задано як

f(\mu )f(x|\mu )=\pi (\mu )L(\mu )={\frac {1}{{\sqrt {2\pi }}\sigma _{m}}}\exp \left(-{\frac {1}{2}}\left({\frac {\mu -\mu _{0}}{\sigma _{m}}}\right)^{2}\right)\prod _{j=1}^{n}{\frac {1}{{\sqrt {2\pi }}\sigma _{v}}}\exp \left(-{\frac {1}{2}}\left({\frac {x_{j}-\mu }{\sigma _{v}}}\right)^{2}\right),

що є еквівалентним мінімізації наступної функції $\mu$ :

\sum _{j=1}^{n}\left({\frac {x_{j}-\mu }{\sigma _{v}}}\right)^{2}+\left({\frac {\mu -\mu _{0}}{\sigma _{m}}}\right)^{2}.

Отже, ми бачимо, що оцінка МАІ для μ задається як

{\hat {\mu }}_{MAP}={\frac {n\sigma _{m}^{2}}{n\sigma _{m}^{2}+\sigma _{v}^{2}}}\left({\frac {1}{n}}\sum _{j=1}^{n}x_{j}\right)+{\frac {\sigma _{v}^{2}}{n\sigma _{m}^{2}+\sigma _{v}^{2}}}\mu _{0},

що виявляється лінійною інтерполяцією середнього апріорного та середнього вибірки, зважену за їхніми відповідними коваріаціями.

Випадок $\sigma _{m}\to \infty$ називається неінформативним апріорним, і веде до недовизначеного апріорного розподілу ймовірності; в цьому випадку ${\hat {\mu }}_{MAP}\to {\hat {\mu }}_{ML}.$

Посилання

↑ Murphy, Kevin P. (2012). Machine learning : a probabilistic perspective. Cambridge, MA: MIT Press. с. 151–152. ISBN 0262018020. (англ.)

Джерела

M. DeGroot, Optimal Statistical Decisions, McGraw-Hill, (1970). (англ.)
Harold W. Sorenson, (1980) "Parameter Estimation: Principles and Problems", Marcel Dekker. (англ.)

[1] Murphy, Kevin P. (2012). Machine learning : a probabilistic perspective. Cambridge, MA: MIT Press. с. 151–152. ISBN 0262018020. (англ.)

[1]