確率的生成モデルに使われる各種確率分布について

機械学習技術 人工知能技術 デジタルトランスフォーメーション技術 確率的生成モデル 本ブログのナビ 自然言語処理技術 マルコフ連鎖モンテカルロ法 深層学習技術 ノンパラメトリックベイズとガウス過程 異常検知と変化検知技術 時系列データ解析

サマリー

ノンパラメトリックベイズとは、ベイズ統計学の一手法であり、データ自体から確率モデルを構築し、データを生成する真の確率分布を仮定する代わりに、データから確率分布を推定することができるものとなる。これにより、データに対して柔軟なモデルを使用し、データに適合するように確率分布を自動的に調整することができるようになる。ここでは機械学習プロフェッショナルシリーズ「ノンパラメトリックベイズ-点過程と統計的機械学習の数理」をベースにこのノンパラメトリック技術について述べる。

前回はノンパラメトリックベイズの点過程と統計的機械学習の数理の概要について述べた。今回は確率分布に関する基礎的な知識を整理する。確率分布の関係を示したものは以下のようになる。

ベルヌーイ分布と二項分布

ベルヌーイ分布(Bernoulli distribution)と二項分布(binominal distribution)について述べる。

ベルヌーイ分布(Bernoulli distribution)は、二値確率変数x∈{0,1}をとる離散分布となる。x=1となる確率をπ(0≤π≤1)、π=0となる確率を1-πとする。ベルヌーイ分布は、πをパラメータとして以下のように定義される。

\[Bernoulli(x|\pi)=\pi^x(1-\pi)^{1-x}\quad(x\in\{0,1\})\quad(4)\]

ベルヌーイ分布に従うn回の独立した試行を考え、x∈{0,1}によりi回目の試行における値を示すとする。また、n0(n1)で0(1)が出た回数を表現する。

このとき、πが与えられた元手のx={x1,x2,…,xn}の確率は以下で計算できる。

\[p(\mathbf{x}|\pi)=\displaystyle\prod_{i=1}^np(x_i|\pi)=\pi^{n_1}(1-\pi)^{n_0}\quad(5)\]

各試行における値ではなく、n回の試行における1の出現回数n1に興味がある場合、n1の確率はπとnがパラメータとなり、以下のように表される二項分布に従う。

\[Bi(n_1|\pi,n)=\frac{n!}{n_1!(n-n_1)!}\pi^{n_1}(1-\pi)^{n-n_1}\quad(6)\]

ポアソン分布

ポアソン分布(Poisson distribution)について述べる。ポアソン分布は頻度などの自然数をとる離散的な事象の従う分布としてよく使われる確率分布となる。

ポアソン分布は、λ>0をパラメータとして以下のように定義される。

\[Po(x|\lambda)=\frac{\lambda^x}{x!}e^{-\lambda}\quad(x\in\mathbb{N}\cup\{0\})\quad(7)\]

ポアソン分布の期待値と分散は以下のようになる。

\[\mathbb{E}[\pi]=\lambda,\ \mathbb{V}[\pi]=\lambda\quad(8)\]

ポアソン分布と二項分布の関係は、nπ=λのとき以下のようになる。

\[\lim_{n\rightarrow\infty} Bi(x|\pi,n)=Po(x|\lambda)\quad(9)\]

多項分布

二項分布をentiledに拡張した多項分布(multinominal distribution)について述べる。

xを、K種類の値{1,2,…,K}をとる確率変数とする。それぞれの値をとる確率をπ=(π12,…πK)\((\sum_{k=1}^K\pi_k=1)\)とする。n回の独立した試行を考え、xi=kにより、i回目の試行における値がkであることを示すとする。また、nkでkという値が出た回数を表現する。πが与えられたもとで、xi=kである確率はp(xi=k|π)=πkとなる。

このとき、πが与えられたもとでのx={x1,x2,…,xn}の確率は以下のように計算できる。

\[p(\mathbf{x}|\pi)=\displaystyle\prod_{i=1}^np(x_i|\pi)=\prod_{k=1}^K\pi_k^{n_k}\quad(10)\]

各試行における値ではなく、n回の試行における各値の出現回数nkに興味がある場合、\(\{n_k\}_{k=1}^K\)の確率は、πとnがパラメータとなり以下の式で定義される多項分布\((\{n_k\}_{k=1}^K|\pi,n)\)に従う。

\[Multi(\{n_k\}_{k=1}^K|\pi,n)=\frac{n!}{\prod_{k=1}^K}\displaystyle\prod_{k=1}^K\pi_k^{n_k}\quad(11)\]

各試行におけるxiは、n=1の多項分布に従い、p(xi=k|π)=Multi(nk=1|π,1)=πk(∵∀k’≠k,nk’=0)と考えることができるため、これをMulti(xi|π)と表記する。Multi(xi|π)を多項分布と区別して単に離散分布もしくはカテゴリ分布と呼ぶこともある。

ベータ分布

ベータ分布(beta distribution)について述べる。ベータ分布はベルヌーイ分布や二項分布のパラメータπ(0≤π≤1)が従う分布として使われることが多い確率分布となる。

確率変数πが、以下の確率密度関数を持つ時、πはa>0、b>0をパラメータとするベータ分布に従うという。

\[Beta(\pi|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\pi^{a-1}(1-n)^{b-1}\quad(12)\]

ここで、以下の式は、ガンマ関数(gamma function)と呼ばれる階乗を一般化した関数となる。

\[\Gamma(x)=\displaystyle\int_0^{\infty}t^{x-1}e^{-x}dx\quad(13)\]

このガンマ関数は、n≥2を整数、αを非負十数とした時以下のようになるという性質を持つ。

\[\Gamma(1)=1,\ \Gamma(n)=(n-1)\Gamma(n-1)=(n-1)!\\\Gamma(n+\alpha)=(n-1+\alpha)\Gamma(n-1+\alpha)\quad(14)\]

ベータ分布の期待値と分散は以下のようになる。

\[\mathbb{E}[\pi]=\frac{a}{a+b},\ \mathbb{V}[\pi]=\frac{ab}{(a+b)^2(1+a+b)}\quad(15)\]

ディリクレ分布

ベータ分布ほentiledに拡張したディリクレ分布(Dirichlet distribution)について述べる。K次元確率ベクトルの集合を以下のように定義する。

\[\Delta^K=\{\pi=(\pi_1,\pi_2,\dots,\pi_k)|\displaystyle\sum_{k=1}^K\pi_k=1,\ \pi_k\geq 0 \forall k\}\quad(16)\]

ディリクレ分布はこのようなΔK上の確率分布としてしばしば使われる。

確率変数πが、以下の確率密度関数を持つ時、πはα=(α1,α2,…,αK)(αK>0)をパラメータとするディリクレ分布に従うという。

ディリクレ分布の期待値と分散は以下のようになる。

\[\mathbb{E}[\pi_k]=\frac{\alpha_k}{\alpha_0},\ \mathbb{V}[\pi_k]\frac{\alpha_k(\alpha_0-\alpha_k)}{\alpha_0^2(1+\alpha_0)},\ ここで\alpha_0=\displaystyle\sum_{k=1}^K\alpha_k\quad(17)\]

ガンマ分布と逆ガンマ分布

非負値をとる確率変数が従う代表的な確率分布としてガンマ分布(gamma distribution)と逆ガンマ分布(inverse-gamma distribuution)について述べる。

確率変数τが、以下の確率関数を持つ時、τはa>0、b>0をパラメータとするガンマ分布に従うという。

\[Ga(\tau|a,b)=\frac{b^a}{\Gamma(a)}\tau^{a-1}exp(-b\tau)\quad(19)\]

ガンマ分布の期待値と分散は以下のようになる。

\[\mathbb{E}[\tau]=\frac{a}{b},\ \mathbb{V}[\tau]=\frac{a}{b^2}\quad(20)\]

τがガンマ分布に従う時、1/τは逆ガンマ分布に従う。ν=1/τとすると、逆ガンマ分布の確率密度関数は、a>0、b>0をパラメータとして、以下のように定義される。

\[IG(\nu|a,b)=\frac{b^a}{\Gamma(a)}\nu^{-a-1}exp(-\frac{b}{\tau})\quad(21)\]

逆ガンマ関数の期待値と分散は以下のようになる。

\[\mathbb{E}[\nu]=\frac{b}{a-1}(a>1),\ \mathbb{V}[\tau]=\frac{b^2}{(a-1)^2(a-2)}(a>2)\quad(22)\]

ガウス分布

D次元の実数値ベクトルx∈ℝDが従う代表的な確率分布としてガウス分布について述べる。確率変数xが、以下の確率密度関数を持つ時、xはμ∈ℝし、DxDの正定値対称行列Σをパラメータとするガウス分布に従うという。

\[N(\mathbf{x}|\mu,\Sigma)=\frac{1}{\sqrt{(2\pi)^D|\Sigma|}}exp\left(-\frac{1}{2}(\mathbf{x}-\mu)^T\Sigma^{-1}(\mathbf{x}-\mu)\right)\quad(23)\]

ガウス分布の期待値と共分散行列は以下のようになる。

\[\mathbb{E}[\mathbf{x}]=\mu,\ \mathbb{C}[\mathbf{x}]=\Sigma\quad(24)\]

ウィシャート分布

DxDの半正定値対称行列Aが従う確率分布としてウィシャート分布(Wishart distribution)について述べる。

確率変数Aが以下の確率密度関数を持つ時、Aはν≥D、DxDの行列Σをパラメータとするウィシャート分布に従うという。

\[W(A|\nu,\Sigma)=\frac{|A|^{\frac{1}{2}(\nu-D-1)}}{2^{\frac{\nu D}{2}}\pi^{\frac{D(D-1)}{4}}|\Sigma|^{\frac{n}{2}}\displaystyle\prod_{d=1}^D\Gamma\left(\frac{\nu-d+1}{2}\right)}exp\left(-\frac{1}{2}tr(\Sigma^{-1}A)\right)\quad(25)\]

ウィシャート分布の期待値と共分散行列は以下のようになる。

\[\mathbb{A}=\nu\Sigma,\ \mathbb{C}[A]=2\nu\Sigma\otimes\Sigma\quad(26)\]

スチューデントt分布

D次元の実数値ベクトルx∈ℝDが従う分布としてスチューデントt分布(Student-t distribution)がある。

確率変数xが、以下の確率密度関数を持つ時、xは、μ∈ℝD、ν∈ℝれ、DxDの正定値対称行列Σをパラメータとするスチューデントt分布に従うという。

\[St(\mathbf{x}|\mu,\nu,\Sigma)=\frac{1}{\sqrt{\pi^ D\nu^D|\Sigma|}}\frac{\Gamma(\nu/2+D/2)}{\Gamma(\nu/2)}\left[1+\frac{1}{\nu}(\mathbf{x}-\mu)^T\Sigma^{-1}(\mathbf{x}-\mu)\right]^{-\frac{\nu+D}{2}}\quad(27)\]

スチューデントt分布の期待値と共分散行列は以下のようになる。

\[\mathbb{E}[\mathbf{x}]=\mu,\ \mathbb{C}[\mathbf{x}]=\frac{\nu}{\nu-2}\Sigma\quad(28)\]

上記の定義式が一般的だが、別の定義もある。μ∈ℝD、ν∈ℝ+、DxDの正定値対称行列Φをパラメータとして以下のように定義する場合もある。

\begin{eqnarray}& &p(\mathbf{x}|\mu,\nu,\Phi)\\& &=St(\mathbf{x}|\mu,\nu,\Phi)\\& &=\frac{1}{\sqrt{\pi^ D|\Phi|}}\frac{\Gamma(\nu/2+D/2)}{\Gamma(\nu/2)}\left[1+(\mathbf{x}-\mu)^T\Phi^{-1}(\mathbf{x}-\mu)\right]^{-\frac{\nu+D}{2}}\quad(29)\end{eqnarray}

今回は上記の定義のスチューデントt分布を主に使う。

このとき、スチューデントt分布の期待値と共分散行列は以下のように表される。

\[\mathbb{E}[\mathbf{x}]=\mu,\ \mathbb{C}[\mathbf{x}]=\frac{1}{\nu-2}\Phi\quad(30)\]

次回は確率的生成モデルと学習の概要について述べる。

コメント

  1. […] 確率的生成モデルに使われる各種確率分布について […]

  2. […] 次回は確率的生成モデルに用いられる確率分布に関する基礎的な知識を整理する。 […]

  3. […] 機械学習プロフェッショナルシリーズ「ノンパラメトリックベイズ-点過程と統計的機械学習の数理」より。前回は確率分布に関する基礎的な知識について述べた。今回は確率的生成モデルと学習の概要について述べる。確率的生成モデルは、データの生成過程を確率モデルによって表現した数理モデルとなる。今回は確率的生成モデルで用いられるデータの生成過程の表現方法と、生成モデルの推定問題としての統計的学習について述べる。 […]

  4. […] 確率的生成モデルに使われる各種確率分布について […]

  5. […] 確率的生成モデルに使われる各種確率分布について […]

  6. […] 確率・統計の理論や歴史に対する参考図書としては、”はじめての確率論 読書メモ“、”確率論入門 読書メモ“、”人間と社会を変えた9つの確率・統計物語 読書メモ“、”世界を変えた確率と統計のカラクリ134話 読書メモ“を参照のこと。また具体的な実装と活用については”pythonによる統計モデリング“、”Clojure/Incanterを用いた統計解析と相関評価“、”確率的生成モデルに使われる各種確率分布について“等を参照のこと。 […]

タイトルとURLをコピーしました