広く使える情報量規準(ひろくつかえるじようほうりょうきじゅん、英: Widely applicable information criterion、略称: WAIC)または渡辺・赤池情報量基準(Watanabe–Akaike information criterion、WAIC)は、特異的統計モデルに対する赤池情報量基準 (AIC) の一般化版である[1]。2009年に渡辺澄夫が発表した[2]。また、広く使えるベイズ情報量規準 (WBIC; Widely applicable Bayesian information criterion) は、特異的統計モデルに対するベイズ情報量規準 (BIC) の一般化版[3]。2013年に渡辺澄夫が発表した。WBIC は、サンプルサイズが n の時に、逆温度が 1/log n の事後分布に対する平均対数尤度関数。
WAICもWBICも真の分布に関する情報無しに数値的に計算できる。
記法
以下では、q(x) を観測データが従う真の確率分布、観測データ(確率変数)を X={Xi}、確率モデルのパラメータを w、確率モデルを p(x|w)、事前分布を φ(w) とする。
また、事後分布による平均を 𝔼w[・]、真のデータ分布による平均を 𝔼x[・] とする。すなわち、任意の関数 f(w)、g(x)に対し:
,
![{\displaystyle \mathbb {E} _{x}\left[g(x)\right]=\int g(x)q(x)\mathrm {d} x}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5a7372c5c6c97d4a2ce7fe8826ac245a95a6a1ce)
とする。また、特にパラメータ β で一般化された事後分布平均を
![{\displaystyle \mathbb {E} _{w}^{\beta }\left[f(w)\right]={\frac {\int f(w)\prod _{i=1}^{n}p(X_{i}|w)^{\beta }\varphi (w)\mathrm {d} w}{\int \prod _{i=1}^{n}p(X_{i}|w)^{\beta }\varphi (w)\mathrm {d} w}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/908304fc009af7ee288e6f0ba4d36c84b4a0dd7f)
と書く。ここで導入されたパラメータ β は統計力学とのアナロジーで逆温度と呼ばれる。
またベイズ推定の文脈で、パラメータ w の事後分布を用いて期待値をとったモデル分布(事後予測分布)を
![{\displaystyle p^{\ast }(x)=\mathbb {E} _{w}\left[p(x|w)\right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f40d218b0f3a810bdf7d0a9b0e688e8322b9748f)
と書く。
WAIC
定義
![{\displaystyle \mathrm {WAIC} ={\frac {1}{n}}\sum _{i}(-\log {p^{\ast }(X_{i})})+{\frac {1}{n}}\sum _{i=1}^{n}\left[\mathbb {E} _{w}\left[\log {p(X_{i}|w)^{2}}\right]-\mathbb {E} _{w}\left[\log {p(X_{i}|w)}\right]^{2}\right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b87411a92600c295cf6f79037021cf4b1616e49e)
ただし、文献により定義が定数倍違う場合があることに注意。
意味付け
考えている確率モデルの性能を評価するため、観測データから得られた事後予測分布 p*(x) が実際のデータ分布 q(x) にどのくらい近いかを考えたい。そこで、以下で定義される量(汎化誤差)を考える:
![{\displaystyle G_{n}=\mathbb {E} _{x}\left[-\log p^{\ast }(x)\right]=\int q(x)\left(-\log {p^{\ast }(x)}\right)dx}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7b68dd59fe6bf715068411eb786d5909a2c4613c)
これは真の分布 q(x) と予測分布 p*(x) との交差エントロピー H(q||p*)である。これは q(x) が p*(x) と等しい時最小値 H(q) をとる(H(q) は q(x) のエントロピー)。
しかし実際には無限に観測データを手に入れられるわけではないので、真の分布 q(x) の形状を知らない場合には上の積分は評価できない。そこで、真のデータ分布での平均値を求める代わりに、有限の観測データによるサンプル平均を使った経験誤差を考える:

これは汎化誤差の近似を与える(サンプルサイズが非常に大きい極限で汎化誤差に漸近する)が、有限のサンプルを用いて計算しているため真の汎化誤差の値から系統的に少しずれてしまう。WAICはこの経験誤差と汎化誤差とのズレを汎関数分散
![{\displaystyle V_{n}=\sum _{i=1}^{n}\left[\mathbb {E} _{w}\left[\log {p(X_{i}|w)^{2}}\right]-\mathbb {E} _{w}\left[\log {p(X_{i}|w)}\right]^{2}\right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8cfab45e84da17e29863baf21f0df3998cd01615)
で補正し、有限の観測データしかない場合でも汎化誤差の良い近似値を計算できるようにしたものである。
WBIC
定義
広く使えるベイズ情報量規準 (WBIC) は、逆温度パラメータ を β* = 1 / log n とおいたときの一般化事後分布に対する対数尤度の期待値
![{\displaystyle \mathrm {WBIC} =\mathbb {E} _{w}^{\beta ^{\ast }}\!{\bigl [}-\sum _{i=1}^{n}\log p(X_{i}\mid w){\bigr ]}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2e10f962d46b37784541f4df0ff9df49ce8d6ef8)
として定義される。すなわち「逆温度 β* = 1 / log n でMCMC チェーンを回し、そのチェーン上の対数尤度を平均した量」が WBIC である。
意味付け
ベイズ統計の文脈でモデル同士を比較するのに使われるのがベイズファクターである。ベイズファクターはモデル同士のエビデンス

の比で与えられる。実用上はこれの対数値を使うのが便利なので、これの負の対数値

(統計力学とのアナロジーでベイズ自由エネルギーと呼ぶ)を考える。BICは正則モデル(事後分布が正規分布でよく近似できる)についてこれの良い近似(定義によってはその定数倍)を与えるが、WBICは非正則(特異的)なモデルに対しても自由エネルギーの良い近似値を与える。
参考文献
外部リンク
渡辺澄夫による解説