Conditional random fieldI Conditional Random Field[1] ( CRF ) sono una classe di metodi di modellazione statistica spesso utilizzati nel riconoscimento di pattern e nell'apprendimento automatico anche per predizioni strutturate. Mentre un generico classificatore prevede un'etichetta per un singolo campione senza considerare i campioni "vicini", un CRF può tenere conto anche del contesto. A tale scopo, le predizioni sono basate su un modello grafico che rappresenta la presenza di dipendenze tra le variabili aleatorie. Il tipo di grafo utilizzato dipende dall'applicazione. Ad esempio, nell'elaborazione del linguaggio naturale sono diffuse le CRF "a catena lineare", nelle quali ogni variabile dipende solo dai suoi vicini immediati. Nell'elaborazione delle immagini, il grafo in genere collega le posizioni a posizioni vicine e/o simili per garantire che ricevano predizioni simili. Altri esempi di applicazione dei CRF sono: l'etichettatura o analisi di dati sequenziali per l'elaborazione del linguaggio naturale o di sequenze biologiche, il POS tagging, l'analisi superficiale[2], il riconoscimento di entità[3], la ricerca di geni, la ricerca di regioni funzionali critiche dei peptidi[4], il riconoscimento di oggetti [5] e la segmentazione di immagini nella visione artificiale. DescrizioneFormalmente, i CRF sono un tipo di modello grafico probabilistico discriminativo non orientato. Lafferty, McCallum e Pereira[1] definiscono un CRF sulle osservazioni e le variabili casuali (di output) come segue:
Ciò vuol dire che un CRF è un modello grafico non orientato i cui nodi possono essere separati esattamente in due insiemi disgiunti e , comprendenti, rispettivamente, le variabili osservate e quelle di output; ne discende un modello della distribuzione condizionata. InferenzaPer grafi arbitrari, il problema dell'inferenza esatta nei CRF risulta intrattabile. Il problema di inferenza usando un CRF fondamentalmente è lo stesso che risulta dall'uso di un MRF valendo per entrambi le stesse argomentazioni. Tuttavia, esistono casi speciali per i quali è possibile l'inferenza esatta:
Se l'inferenza esatta non è possibile/trattabile, si possono utilizzare diversi algoritmi per ottenere soluzioni approssimate, fra cui:
Apprendimento dei parametriL'apprendimento dei parametri di solito viene svolto tramite stima di massima verosimiglianza di . Se tutti i nodi, ossia le relative variabili, hanno distribuzioni della famiglia esponenziale e tutte sono osservate in fase di addestramento (supervisionato), l'apprendimento costituisce un problema di ottimizzazione convessa. Esso può essere risolto, ad esempio, utilizzando algoritmi di discesa del gradiente o metodi Quasi-Newton come l'algoritmo L-BFGS. D'altro canto, se alcune variabili non sono osservate, va risolto anche il problema di inferenza per tali variabili. Nei grafi di struttura arbitraria l'inferenza esatta risulta impossibile, quindi bisogna ricorrere ad approssimazioni. EsempiNella modellazione di dati sequenziali, il grafo di interesse è solitamente un grafo a catena. Una sequenza di input di variabili osservate rappresenta una sequenza di osservazioni e rappresenta una variabile di stato nascosta (o sconosciuta) che deve essere dedotta in base alle osservazioni. Gli sono strutturati in modo da formare una catena, con un arco tra ciascuna coppia e . Oltre a una semplice interpretazione dei come "etichette" per ogni elemento nella sequenza di input, questo tipo di layout ammette algoritmi efficienti per:
La dipendenza condizionata di ciascun da è definita attraverso un insieme fisso di funzioni caratteristiche della forma , che possono essere viste come misurazioni che in base alla sequenza di input determinano parzialmente la probabilità di ogni possibile valore per . Il modello assegna a ciascuna feature un peso numerico e li combina per determinare la probabilità di un certo valore per . I CRF a catena lineare hanno molte applicazioni in comune con i modelli di Markov nascosti (HMM) concettualmente più semplici, ma rilassano alcune ipotesi sulle distribuzioni delle sequenze di input e output. Un HMM può essere inteso in senso lato come un CRF con funzioni caratteristiche molto specifiche che utilizzano probabilità costanti per modellare le transizioni di stato e gli output. Al contrario, un CRF può essere inteso in senso lato come una generalizzazione di un HMM che trasforma le probabilità di transizione costanti in funzioni arbitrarie che variano attraverso le posizioni nella sequenza di stati nascosti, a seconda della sequenza di input. In particolare, a differenza degli HMM, i CRF possono contenere un numero qualsiasi di funzioni caratteristiche, tali funzioni possono ispezionare l'intera sequenza di input in qualsiasi momento durante l'inferenza e il loro codominio non deve necessariamente avere un'interpretazione probabilistica. Note
Voci correlate |
Portal di Ensiklopedia Dunia