Ця стаття надає недостатньо контекстної інформації для не обізнаних із її предметом. Будь ласка, допоможіть удосконалити цю статтю, додавши зрозумілу контекстну інформацію.(листопад 2019)
Цю статтю написано занадто професійним стилем зі специфічною термінологією, що може бути незрозумілим для більшості читачів. Ви можете допомогти вдосконалити цю статтю, зробивши її зрозумілою для неспеціалістів без втрат змісту. Можливо, сторінка обговорення містить зауваження щодо потрібних змін.(листопад 2019)
Умо́вні випадко́ві поля́ (УВП, англ.conditional random fields, CRFs) — це клас методів статистичного моделювання, які часто застосовують в розпізнаванні образів та машинному навчанні, й використовують для структурового передбачування. УВП належать до родини моделювання послідовностей. На відміну від дискретного класифікатора, який передбачує мітку для окремого зразка без врахування «сусідніх» зразків, УВП може брати до уваги контекст; наприклад, лінійно-ланцюгове УВП (що є популярним в обробці природної мови) передбачує послідовності міток для послідовностей входових зразків.
,
так що індексовано вершинами .
Тоді є умовним випадковим полем, коли випадкові змінні , обумовлені , володіють марковською властивістю по
відношенню до цього графу: , де означає, що та є сусідами в .
Це означає, що УВП є неспрямованою графовою моделлю, чиї вершини може бути поділено на рівно дві неперетинні множини та , спостережувані та виходові змінні, відповідно; тоді моделюють умовний розподіл .
Висновування
Для графів загального вигляду задача точного висновування в УВП є нерозв'язною. Задача висновування для УВП є по суті такою ж, як і для МВП[en], і мають місце ті самі аргументи.[7] Проте, існують особливі випадки, для яких висновування є здійсненним:
Якщо граф є ланцюгом або деревом, то точні розв'язки дають алгоритми передавання повідомлень. Алгоритми, що застосовують в цих випадках, є аналогічними до послідовно-зворотного алгоритму[en] та алгоритму Вітербі для випадку ПММ.
Навчання параметрів зазвичай виконують навчанням максимальної правдоподібності для . Якщо всі вузли мають розподіли експоненційного сімейства, та є спостережуваними під час тренування, то ця оптимізація є опуклою.[7] Її можливо розв'язувати, наприклад, застосуванням алгоритмів градієнтного спуску, або квазі-ньютоновими методами, такими як алгоритм L-BFGS[en]. З іншого боку, якщо деякі змінні є неспостережуваними, то для цих змінних має бути розв'язано задачу висновування. Для графів загального вигляду точне висновування є непіддатливим, тож мають застосовуватися наближення.
Приклади
У послідовнісному моделюванні, граф, який становить інтерес, зазвичай є ланцюговим. Входова послідовність спостережуваних змінних представляє послідовність спостережень, а представляє приховану (або невідому) змінну стану, висновки про яку потрібно отримувати зі спостережень. структурують так, щоби утворити ланцюг, з ребрами між кожними та . Маючи просте представлення як «міток» для кожного з елементів послідовності входу, це компонування також уможливлює дієві алгоритми для:
тренування моделі, навчання умовних розподілів між та функціями ознак для деякого корпусу тренувальних даних.
декодування, визначення ймовірності заданої послідовності міток за заданої .
висновування, визначення найправдоподібнішої послідовності міток за заданої .
Умовну залежність кожної з від визначають через фіксований набір функцій ознак вигляду , які можливо розглядати як вимірювання на послідовності входу, що частково визначають правдоподібність кожного з можливих значень . Ця модель призначує кожній ознаці числову вагу, й поєднує їх для визначення ймовірності певного значення .
Лінійно-ланцюгові УВП мають багато таких же застосувань, як і концептуально простіші приховані марковські моделі (ПММ), але послаблюють деякі вихідні положення щодо розподілів послідовностей входу та виходу. ПММ можливо грубо розуміти як УВП з дуже особливими функціями ознак, які використовують сталі ймовірності для моделюванні переходів станів та виходів. І навпаки, УВП можливо грубо розуміти як узагальнення ПММ, яке робить сталі ймовірності переходів довільними функціями, що міняться над позиціями в послідовності прихованих станів, залежно від послідовності входу.
Примітно, що, на противагу до ПММ, УВП можуть містити будь-яке число функцій ознак, ці функції ознак можуть оглядати всю послідовність входу в будь-який момент висновування, і спектрові функцій ознак не потрібно мати ймовірнісної інтерпретації.
Варіанти
УВП вищих порядків, та напівмарковські УВП
УВП можливо розширити до моделей вищих порядків, зробивши кожну з залежною від фіксованого числа попередніх змінних . У звичайних формулюваннях УВП вищих порядків тренування та висновування є дієвими лише для маленьких значень (таких як k ≤ 5),[8] оскільки їхня обчислювальна витратність зростає з експоненційно.
Проте, іншому нещодавньому просуванню вдалося поліпшити ці нюанси шляхом задіювання понять та інструментів з області баєсової непараметрії. Конкретніше, УВП-нескінченний (англ.CRF-infinity) підхід[9] становить УВП-модель, здатну навчатися нескінченно тривалої часової динаміки масштабованою манерою. Це здійснюється введенням новітньої функції потенціалу для УВП, яка ґрунтується на «запам'ятовувачі послідовностей» (ЗП, англ.Sequence Memoizer, SM), непараметричній баєсовій моделі для навчання нескінченно тривалих динамік у послідовних спостереженнях.[10] Щоби зробити таку модель обчислювально піддатливою, УВП-нескінченність застосовує наближення середнього поля[11] запостульованих новітніх функцій потенціалу (які веде ЗП). Це дозволяє винаходити дієві алгоритми наближеного тренування та висновування для цієї моделі, не підриваючи її здатності схоплювати та моделювати часові залежності довільної тривалості.
Існує ще одне узагальнення УВП, напівма́рковське умо́вне випадко́ве по́ле (напів-УВП, англ.semi-Markov conditional random field, semi-CRF), яке моделює сегментування довільної довжини послідовності міток .[12] Воно забезпечує майже таку ж потужність для моделювання довготривалих залежностей , як і УВП вищих порядків, за помірних обчислювальних витрат.
Лате́нтно-динамі́чні умо́вні випадко́ві по́ля (ЛДУВП, англ.latent-dynamic conditional random fields, LDCRF), або розрі́знювальні імові́рнісні моде́лі з лате́нтними змі́нними (РІМЛЗ, англ.discriminative probabilistic latent variable models, DPLVM) — це один із типів УВП для задач маркування послідовностей. Вони є моделями з латентними змінними[en], що тренують розрізнювально.
В ЛДУВП, як і в будь-якій задачі маркування послідовностей, для заданої послідовності спостережень x = головною задачею, яку ця модель мусить розв'язати, є як призначити послідовність міток y = з однієї скінченної множини міток Y. Замість моделювати P(y|x) безпосередньо, як робило би звичайне лінійно-ланцюгове УВП, між x та y «вставляють» множину латентних зміннихh, застосовуючи ланцюгове правило ймовірності:[13]
↑Chang KY; Lin T-p; Shih L-Y; Wang C-K (2015). Analysis and Prediction of the Critical Regions of Antimicrobial Peptides Based on Conditional Random Fields. PLoS ONE. doi:10.1371/journal.pone.0119490. PMC4372350.{{cite conference}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)(англ.)
↑Chatzis, Sotirios; Demiris, Yiannis (2013). The Infinite-Order Conditional Random Field Model for Sequential Data Modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (6): 1523—1534. doi:10.1109/tpami.2012.208. PMID23599063. (англ.)
Sutton, C., McCallum, A.: An Introduction to Conditional Random Fields for Relational Learning. In «Introduction to Statistical Relational Learning». Edited by Lise Getoor[en] and Ben Taskar. MIT Press. (2006) Online PDF(англ.)
Klinger, R., Tomanek, K.: Classical Probabilistic Models and Conditional Random Fields. Algorithm Engineering Report TR07-2-013, Department of Computer Science, Dortmund University of Technology, December 2007. ISSN 1864-4503. Online PDF(англ.)