パターン認識と機械学習 : ガウス分布と条件付きガウス分布

ガウス分布と条件付きガウス分布

今回は、ビショップ本の2章のメインとも言えるガウス分布についてです. ガウス分布については結構な量があるのでいくつかに分けてまとめていきたいと思います.

ガウス分布と条件付きガウス分布

1. ガウス分布について

ガウス分布 (Gaussian distribution)は、正規分布 (normal distribution)とも呼ばれていて、連続変数の分布をモデル化する際によく使われます.

1次元のときのガウス分布は、

と表されます. ここで $\mu$ は平均、 $\sigma^{2}$ は分散です.

$D$ 次元のときは、

と表され、 $\boldsymbol{\mu}$ はD次元の平均ベクトル、 $\boldsymbol{\Sigma}$ は $D \times D$ の共分散行列です.

多変量ガウス分布と条件付き分布について

さて、多変量ガウス分布の重要な特性の一つに、2つの変数の同時分布がガウス分布に従うならば、それらの変数を用いた条件付き分布及び、周辺分布もガウス分布になるというのがあります.

今回は、その内の条件付き分布についてのお話です.

$\boldsymbol{x}$ を $N(\boldsymbol{x}|\boldsymbol{\mu},\boldsymbol{\Sigma})$ に従うD次元ベクトルとし、これを互いに素な部分集合 $\boldsymbol{x_a}$ と $\boldsymbol{x_b}$ に分割します.

つまり、

とし、これに対する平均ベクトルと共分散行列もそれぞれ、

で与えられます.

共分散行列が与えられたが、ビショップ本をはじめとし、共分散の逆行列を考えた方が便利になることが多いため、 $\boldsymbol{\Lambda} = \boldsymbol{\Sigma}^{-1}$ を考えています. これを精度行列と呼んでいます. 以降では精度行列をベースに話が進んでいきます.

制度行列は、

となるが、 $\boldsymbol{\Lambda_{aa}}$ が $\boldsymbol{\Sigma_{aa}}$ の逆行列となっていないことに注意しなくてはいけません. (このことについては最後に述べます.)

まず、一般のガウス分布の指数部は、 $\displaystyle -\frac{1}{2}(\boldsymbol{x} - \boldsymbol{\mu})^{T} \boldsymbol{\Sigma}^{-1} (\boldsymbol{x} - \boldsymbol{\mu}) = - \frac{1}{2} \boldsymbol{x}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{x} + \boldsymbol{x}^{T} \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu} + ( \boldsymbol{x}とは独立な項)$ と変形できます.

右辺の $\boldsymbol{x}$ の2次の項の係数行列が精度行列(共分散の逆行列)と等しく、 $\boldsymbol{x}$ の線形項の係数は $\boldsymbol{\Sigma^{-1}\mu}$ と等しくなります. (ここから平均ベクトルを計算することができます.)

このことを利用して、条件付き分布の平均と共分散行列を求めますが、基本的な考えとしては分割した変数が従うガウス分布を、 $\boldsymbol{x_b}$ を固定した上での $\boldsymbol{x_a}$ の関数とみなします.

さて、分割した変数が従うガウス分布の指数部は、

となることはすぐ確認できると思います.

この中の $\boldsymbol{x_a}$ の2次の項を全て取り出すと、

となるので、 $\boldsymbol{\Sigma_{a|b}} = \boldsymbol{\Lambda_{aa}}^{-1}$ となります.

次に、 $\boldsymbol{x_a}$ について線形の項を全て取り出すと、 $\boldsymbol{x_a}^{T} {\boldsymbol{\Lambda_{aa}}\boldsymbol{\mu_a} - \boldsymbol{\Lambda_{ab}}(\boldsymbol{x_b} - \boldsymbol{\mu_b}) }$ が得られます.

この式の $\boldsymbol{x_a}$ の係数が $\boldsymbol{\Sigma_{a|b}}^{-1}\boldsymbol{\mu_{a|b}}$ になることは説明しました.

これらより、 $\boldsymbol{\mu_{a|b} = \boldsymbol{\mu_a} - \boldsymbol{\Lambda_{aa}}^{-1} \boldsymbol{\Lambda_{ab}}(\boldsymbol{x_a} - \boldsymbol{\mu_b})}$ となります.