Algoritmo di Metropolis-Hastings

L'algoritmo di Metropolis-Hastings è un metodo MCMC usato per generare dei valori $x_{1},x_{2},\ldots ,x_{n}$ che presentano una distribuzione $p(x)$ fissata a priori. Non necessita che la distribuzione $p(x)$ sia nota, è sufficiente che sia conosciuta una funzione $f(x)$ proporzionale a $p(x).$ Questo requisito così debole permette di usare l'algoritmo di Metropolis-Hastings per campionare da distribuzioni di cui l'integrale sia troppo difficile, o impossibile, da calcolare in forma analitica, come è spesso il caso nell'inferenza bayesiana.

Il metodo è stato descritto da Hastings nel 1970, come generalizzazione dell'algoritmo di Metropolis del 1953.

Algoritmo di Metropolis

Per comprendere l'algoritmo generale è utile imparare prima quello originale, detto di Metropolis.

Il metodo si basa sulla generazione di valori "proposti" che vengono accettati o rigettati in modo da convergere alla distribuzione $p(x)$ voluta. Necessita di una funzione $f(x)\propto p(x)$ e di una proposal distribution $J(x^{*}|x_{i})$ simmetrica, che rispetti cioè la proprietà $J(x^{*}|x_{i})=J(x_{i}|x^{*})$ . Le scelte più comuni per la distribuzione di proposta sono la normale ${\mathcal {N}}(x_{i},\delta ^{2})$ e l'uniforme ${\text{unif}}(x_{i}-\delta ,x_{i}+\delta )$ , dove $\delta$ è un parametro da specificare prima della partenza dell'algoritmo.

Ciascuna iterazione dell'algoritmo di Metropolis consiste nei seguenti passaggi:

si estrae un nuovo valore $x^{*}$ dalla distribuzione di proposta $J(x^{*}|x_{i})$ ;
si calcola il rapporto $w={\frac {f(x^{*})}{f(x_{i})}}={\frac {p(x^{*})}{p(x_{i})}}$ ;
se $w\geq 1$ si accetta il nuovo valore $x^{*}=x_{i+1}$ ;
se invece $w<1$ $w<1$ il nuovo valore deve essere accettato con probabilità $w$ $w$ . Si genera quindi un numero random $r$ $r$ distribuito uniformemente nell'intervallo $[0,1]$ $[0,1]$ ;
1. se $r<w$ si accetta il nuovo valore $x^{*}=x_{i+1}$ ;
2. altrimenti il nuovo valore viene rigettato e si pone $x_{i+1}=x_{i}$ .

Per generare una sequenza di $N$ elementi basta ripetere queste operazioni $N$ volte a partire da un valore iniziale $x_{0},$ scelto arbitrariamente.

Per avere una buona stima di $p(x)$ è necessario generare sequenze abbastanza lunghe. La scelta del parametro $\delta$ può essere cruciale, se è troppo grande solo una piccola parte dei valori di prova proposti verrà accettato. Se invece è troppo piccolo la catena si muoverà molto lentamente e i valori risulteranno estremamente autocorrelati.

Di conseguenza, essendo $\delta$ dipendente dalla forma e dalla scala di $p(x),$ deve essere di volta in volta calibrato correttamente; per la sua stima si può procedere per approssimazione successiva in modo che, fissato un delta, il numero di valori accettati sia un terzo del totale. Anche la scelta del valore iniziale è molto importante, in genere conviene partire da valori di $x$ tali che $p(x)$ assuma valori massimi in modo da avere una buona statistica nelle zone più probabili.

Caso multivariato

L'algoritmo descritto sopra funziona esattamente sia nel caso uni- che multivariato, ma esiste un secondo approccio al caso multivariato, particolarmente interessante quando si va a studiare la generalizzazione di Metropolis-Hastings. Anziché generare ad ogni iterazione un nuovo vettore $x^{*}$ e accettarlo o respingerlo in toto, è possibile considerare a parte ogni elemento di $x=(x_{1},\ldots ,x_{n})$ e generare a parte un nuovo valore per ciascuno di questi elementi tramite una distribuzione simmetrica $J_{j}(x_{j}^{*}|x_{j})$ per poi accettare o respingere questo valore singolarmente, al fine di definire $x_{i+1}.$

Algoritmo di Metropolis-Hastings

L'algoritmo di Metropolis richiede, per garantirne la convergenza limite, che la distribuzione di proposta sia simmetrica. Questa condizione limita di fatto il processo che genera i valori proposti al dominio dei random walk. Hastings (1970) propose una generalizzazione dell'algoritmo di Metropolis che permette la scelta di qualsiasi tipo di proposta.

L'algoritmo di Metropolis-Hastings procede nello stesso modo del suo predecessore, ma non richiede la simmetria della proposal distribution. Questo rilassamento delle ipotesi richiede una modifica nella definizione del rapporto $w$ , che si ridefinisce come $w={\frac {J(x_{i}|x^{*})}{J(x^{*}|x_{i})}}{\frac {f(x^{*})}{f(x_{i})}}={\frac {J(x_{i}|x^{*})}{J(x^{*}|x_{i})}}{\frac {p(x^{*})}{p(x_{i})}}$ . Il resto dell'algoritmo rimane invariato.

Derivazione formale

Lo scopo dell'algoritmo di Metropolis-Hastings è generare una collezione di stati secondo una distribuzione desiderata $P(x)$ . Per farlo, l'algoritmo utilizza un processo di Markov, che asintoticamente raggiunge una distribuzione stazionaria unica $\pi (x)$ tale che $\pi (x)=P(x)$ .

Un processo di Markov è definito univocamente dalle sue probabilità di transizione $P(x'\mid x)$ , cioè la probabilità di passare da uno stato dato $x$ a un altro stato dato $x'$ . Esso ammette una distribuzione stazionaria unica $\pi (x)$ quando sono soddisfatte le seguenti due condizioni:

Esistenza della distribuzione stazionaria: deve esistere una distribuzione stazionaria $\pi (x)$ . Una condizione sufficiente (ma non necessaria) è il detailed balance (bilanciamento dettagliato), che richiede che ogni transizione $x\to x'$ sia reversibile, cioè per ogni coppia di stati $x,x'$ , la probabilità di essere nello stato $x$ e passare a $x'$ deve essere uguale alla probabilità di essere nello stato $x'$ e passare a $x$ , ovvero: $\pi (x)P(x'\mid x)=\pi (x')P(x\mid x')$ . Una distribuzione $\pi (x)$ che soddisfa il bilancio dettagliato è necessariamente stazionaria, infatti segue che:

\int \pi (x)P(x'\mid x)dx=\int \pi (x')P(x\mid x')dx=\pi (x')\int P(x\mid x')dx=\pi (x'),

cioè

\pi (x)

soddisfa la definizione di distribuzione stazionaria.

Unicità della distribuzione stazionaria: la distribuzione stazionaria $\pi (x)$ $\pi (x)$ deve essere unica. Questo è garantito dall'ergodicità del processo di Markov, la quale richiede che ogni stato sia:
1. aperiodico - il sistema non ritorna allo stesso stato a intervalli fissi;
2. positivamente ricorrente - il numero atteso di passi per tornare nello stesso stato è finito.

L'algoritmo di Metropolis–Hastings consiste nel progettare un processo di Markov (costruendo le probabilità di transizione) che soddisfi le due condizioni sopra, in modo che la sua distribuzione stazionaria $\pi (x)$ sia esattamente $P(x)$ . La derivazione dell'algoritmo parte dalla condizione di bilanciamento dettagliato:

P(x)P(x'\mid x)=P(x')P(x\mid x')

che può essere riscritta come:

{\frac {P(x'\mid x)}{P(x\mid x')}}={\frac {P(x')}{P(x)}}.

L'approccio consiste nel suddividere la transizione in due sotto-passi: la proposta e l'accettazione/rifiuto. La distribuzione di proposta $g(x'\mid x)$ è la probabilità condizionata di proporre uno stato $x'$ dato $x$ , mentre la distribuzione di accettazione $A(x',x)$ è la probabilità di accettare lo stato proposto $x'$ . La probabilità di transizione può essere scritta come prodotto di queste:

P(x'\mid x)=g(x'\mid x)A(x',x).

Inserendo questa relazione nell'equazione precedente si ottiene:

{\frac {A(x',x)}{A(x,x')}}={\frac {P(x')}{P(x)}}{\frac {g(x\mid x')}{g(x'\mid x)}}.

Il passo successivo nella derivazione è scegliere un rapporto di accettazione che soddisfi la condizione sopra. Una scelta comune è quella di Metropolis:

A(x',x)={\begin{cases}\min \left(1,{\frac {P(x')}{P(x)}}{\frac {g(x\mid x')}{g(x'\mid x)}}\right)&{\text{se }}P(x)g(x'\mid x)\neq 0;\\1&{\text{altrimenti}}.\end{cases}}

Per questo rapporto di accettazione $A$ la condizione è soddisfatta. La scelta di $A$ siffatta è giustificata da due punti:

Muoversi verso zone di più alta densità di probabilità aumenta la probabilità di accettazione, infatti in tal caso ${\frac {P(x')}{P(x)}}>1$ .
Il termine ${\frac {g(x\mid x')}{g(x'\mid x)}}$ corregge l'eventuale asimmetria della probabilità di transizione, così da rispettare il bilancio dettagliato, infatti, consideriamo il caso in cui $P(x)g(x'\mid x)>P(x')g(x\mid x')$ , cioè è più probabile andare da $x$ in $x'$ piuttosto che da $x'$ in $x$ , allora $A(x',x)<1$ mentre $A(x,x')=1$ e quindi

P(x)P(x'\mid x)=P(x)g(x'\mid x)A(x',x)=P(x')g(x\mid x')\underbrace {A(x,x')} _{=1}=P(x')P(x\mid x').

Quindi

P(x)

è effettivamente la distribuzione limitre della catena di Markov.

L'algoritmo di Metropolis-Hastings può quindi essere scritto come segue:

Inizializzazione
1. scegliamo uno stato iniziale $x_{0}$ ;
2. poniamo $t=0$ .
Iterazione
1. generiamo un candidato $x'$ secondo $g(x'\mid x_{t})$ _;
2. calcoliamo la probabilità di accettazione $A(x',x_{t})$ .
Accettazione o rifiuto
1. generiamo un numero casuale uniforme $u\in [0,1]$ ;
2. se $u\leq A(x',x_{t})$ , allora accettiamo il candidato e assegnamo: $x_{t+1}=x'$ ;
3. se $u>A(x',x_{t})$ , allora rifiutiamo il candidato e assegnamo: $x_{t+1}=x_{t}$ .
Passiamo alla prossima iteriazione, $t=t+1$ .

A condizione che siano soddisfatte le ipotesi richieste, la distribuzione empirica degli stati salvati $x_{0},\dots ,x_{T}$ tenderà a $P(x)$ . Il numero di iterazioni $(T)$ necessario per stimare efficacemente $P(x)$ dipende da numerosi fattori, tra cui la relazione tra $P(x)$ e la distribuzione di proposta, e la precisione desiderata nella stima. Per distribuzioni su spazi discreti degli stati, deve essere dell'ordine del tempo di autocorrelazione del processo di Markov.

È importante notare che, in un problema generale, non è chiaro quale distribuzione $g(x'\mid x)$ si debba usare, né quante iterazioni siano necessarie per una buona stima: entrambi sono parametri liberi del metodo, che devono essere adattati al problema specifico.

Tempi caratteristici

Affinché l'algoritmo perda memoria del dato iniziale e converga verso la distribuzione che si vuole campionare, è necessario eseguire un numero iniziale di iterazioni: tale numero si definisce tempo di termalizzazione. Similmente, nel calcolo degli errori è necessario considerare un tempo di correlazione, che consideri l'autocorrelazione tra due campionamenti successivi.