Criterio informativo della devianza

Il criterio informativo della devianza, DIC (deviance information criterion), è una generalizzazione di modellizzazione gerarchica del criterio informativo di Akaike (AIC, Akaike information criterion) e dello Schwarz Criterion (BIC). È particolarmente utile nei problemi di scelta di modelli bayesiani in cui le distribuzioni a posteriori dei modelli è stata ottenuta mediante simulazione MCMC. Analogamente all'AIC e al BIC, il DIC è una approssimazione asintotica che migliora ampliando la dimensione del campione di dati. È valida solamente quando la distribuzione a posteriori è approssimativamente di tipo normale multivariata.

Definiamo la devianza come D ( θ ) = 2 log ( p ( y | θ ) ) + C {\displaystyle D(\theta )=-2\log(p(y|\theta ))+C\,} , dove y {\displaystyle y\,} rappresenta i dati, θ {\displaystyle \theta \,} i parametri incogniti del modello e p ( y | θ ) {\displaystyle p(y|\theta )\,} è la funzione di verosimiglianza. C {\displaystyle C\,} è una costante che può essere trascurata in tutti i calcoli cui vengono confrontati modelli differenti, e in quanto tale non richiede di essere calcolata.

Il valore atteso D ¯ = E θ [ D ( θ ) ] {\displaystyle {\bar {D}}=\mathbf {E} ^{\theta }[D(\theta )]} è una misura di quanto il modello si adatta ai dati; maggiore è il valore atteso, peggiore è l'adattamento e quindi la bontà del modello.

Il numero di parametri efficace del modello è calcolato come p D = D ¯ D ( θ ¯ ) {\displaystyle p_{D}={\bar {D}}-D({\bar {\theta }})} , dove θ ¯ {\displaystyle {\bar {\theta }}} è il valore atteso di θ {\displaystyle \theta \,} . Maggiore è il valore atteso, più facile è per il modello adattarsi ai dati.

Il DIC è calcolato come

D I C = p D + D ¯ . {\displaystyle {\mathit {DIC}}=p_{D}+{\bar {D}}.}

L'idea è quella per cui modelli con valore di DIC piccolo dovrebbero essere preferiti a quelli con DIC grande. I modelli sono penalizzati mediante il valore di D ¯ {\displaystyle {\bar {D}}} , il quale favorisce un buon adattamento ai dati, ma anche (in comune con AIC e BIC) mediante il numero di parametri efficace p D {\displaystyle p_{D}\,} . poiché D ¯ {\displaystyle {\bar {D}}} diminuisce all'aumentare del numero di parametri, il termine p D {\displaystyle p_{D}\,} compensa per questo effetto favorendo modelli con un numero piccolo di parametri.

Nel caso di scelta tra modelli bayesiani, il vantaggio del DIC rispetto agli altri è di essere più facilmente calcolabile da campioni generati mediante simulazioni Monte Carlo basate su catene di Markov, MCMC (Markov Chain Monte Carlo). I criteri AIC e BIC richiedono il calcolo del massimo della verosimiglianza sopra il parametro θ {\displaystyle \theta \,} , e questo non è direttamente reso disponibile da una simulazione MCMC. Invece per calcolare il valore del DIC, semplicemente si calcola D ¯ {\displaystyle {\bar {D}}} come la media di D ( θ ) {\displaystyle D(\theta )\,} sopra i campioni di θ {\displaystyle \theta \,} , mentre D ( θ ¯ ) {\displaystyle D({\bar {\theta }})} come il valore di D {\displaystyle D\,} calcolato sulla media dei campioni di θ {\displaystyle \theta \,} . Il valore del DIC segue allora direttamente da queste approssimazioni. Claeskens e Hjort (2008, Cap. 3.5) mostrano che il DIC è equivalente per campionamenti estesi alla naturale versione robusta (in termini di modello) dell'AIC.

Nella derivazione del DIC, la famiglia parametrica di distribuzioni di probabilità specificata, e che genera le osservazioni future, include il modello vero. Questa assunzione non è sempre valida e in tale scenario è auspicabile considerare delle procedure di accertamento del modello. Inoltre, anche i dati osservati sono impiegati per costruire la distribuzione a posteriori e per determinare i modelli stimati. Perciò, il DIC tende a prediligere modelli sovra-adattati ai dati. Recentemente questi problemi sono stati risolti da Ando (2007) sviluppando criteri di scelta del modello bayesiano a partire da un punto di vista predittivo, BPIC (Bayesian model selection criteria).

Per evitare i problemi di sovra-adattamento del DIC, Ando (2012) ha sviluppato un criterio di selezione del modello bayesiano da un punto di vista predittivo. Il criterio è calcolato come:

I C = 2 E θ [ log ( p ( y | θ ) ) ] + 2 p D . {\displaystyle {\mathit {IC}}=-2\mathbf {E} ^{\theta }[\log(p(y|\theta ))]+2p_{D}.}

Il primo termine è una misura di quanto bene il modello si adatta ai dati, mentre il secondo termine è una penalità sulla complessità del modello.

Bibliografia

  • Tomohiro Ando, Bayesian predictive information criterion for the evaluation of hierarchical Bayesian and empirical Bayes models, in Biometrika, vol. 94, n. 2, 2007, pp. 443–458, DOI:10.1093/biomet/asm017.
  • Tomohiro Ando, Predictive Bayesian model selection, in American Journal of Mathematical and Management Sciences, 2012.
  • Claeskens, G, and Hjort, N.L. (2008). Model Selection and Model Averaging, Cambridge. Section 3.5.
  • Andrew Gelman, John B. Carlin, Hal. S. Stern, Donald Rubin, Bayesian Data Analysis, 2ª ed., Boca Raton, Chapman & Hall/CRC, 2004, pp. 182–184, ISBN 1-58488-388-X, MR 2027492.
  • van der Linde, A. (2005). "DIC in variable selection", Statistica Neerlandica, 59: 45-56. doi:10.1111/j.1467-9574.2005.00278.x
  • David J. Spiegelhalter, Nicola G. Best, Bradley P. Carlin e Angelika van der Linde, Bayesian measures of model complexity and fit (with discussion), in Journal of the Royal Statistical Society, Series B (Statistical Methodology), vol. 64, n. 4, ottobre 2002, pp. 583–639, DOI:10.1111/1467-9868.00353, JSTOR 3088806, MR 1979380.

Voci correlate

  • Criterio informativo di Akaike (AIC)
  • Criterio informativo bayesiano (BIC)
  • Criterio informativo predittivo bayesiano (BPIC)
  • Criterio informativo focalizzato (FIC)
  • Divergenza di Kullback-Leibler
  • Divergenza di Jensen-Shannon