機械学習プロフェッショナルシリーズ-ノンパラメトリックベイズ点過程と統計的機械学習の数理読後メモ

機械学習技術人工知能技術デジタルトランスフォーメーション技術確率的生成モデル本ブログのナビ自然言語処理技術マルコフ連鎖モンテカルロ法深層学習技術ノンパラメトリックベイズとガウス過程

サマリー

ノンパラメトリックベイズとは、ベイズ統計学の一手法であり、データ自体から確率モデルを構築し、データを生成する真の確率分布を仮定する代わりに、データから確率分布を推定することができるものとなる。これにより、データに対して柔軟なモデルを使用し、データに適合するように確率分布を自動的に調整することができるようになる。ここでは機械学習プロフェッショナルシリーズ「ノンパラメトリックベイズ-点過程と統計的機械学習の数理」をベースにこのノンパラメトリック技術について述べる。

以下に読後メモを記述する。

「機械学習プロフェッショナルシリーズ-ノンパラメトリックベイズ点過程と統計的機械学習の数理」

「さぁ、無限次元の扉を開こう!
確率分布の基礎から時系列データやスパースモデリングへの応用までを明快に説く。理論的な背景である測度論も基礎から丁寧に解説する親切設計。新進気鋭のエース研究者が、満を持して執筆した。全ベイジアン必携!」

第1章確率分布に関する基礎知識

1.1 表記や基本的な数学の準備
集合関連
確率関連
行列ベクトル関連
1.2 ベルヌーイ分布と二項分布
1.3 ポアソン分布
1.4 多項分布
1.5 ベータ分布
1.6 ディリクレ分布
1.7 ガンマ分布と逆ガンマ分布
1.8 ガウス分布
1.9 ウィシャート分布
1.10 スチューデンスt分布

第2章確率的生成モデルと学習

2.1 確率生成モデルと表記方法
2.2 グラフィカルモデル
2.3 統計的学習
確率モデルの「近さ」を表す指標
定義”KLダイバージェンス制約について“でも述べているKLダイバージェンス
p(x*)真の生成モデル
KL[p*(x)∥p(x|Φ)]を最小にするp(x|Φ)を求める
最適化問題
期待値を使ったKLダイバージェンスの式
𝔼p*(x)[logp*(x)]の項はp(x|Φ)の最適化に寄与しない
最終的な最適化の式
p*(x)を含んでいるため、このままでは解けない
データを真の分布からのサンプルとみなして「期待値」を計算する
xi〜p*(x)
𝔼p*(x)[logp(x|ファイ)]≈1/2∑logp(xi|Φ)
最尤推定(maximum likelihood estimation)
得られる解をΦML
生成モデルの観点でのΦML
パラメータΦに関する生成過程
Φ〜p(Φ|η)と仮定する
生成確率は
最適化問題
log(p|η)は正則化項
事後確率最大推定(maximum a posteriori estimation, MAP推定)と呼ばれる
MAP推定により得られる解をΦMAPと書く
ベイズの定理(Φの事後分布)
観測データの尤度p(x1:n|Φ)
Φの事前分布p(Φ|η)
最適化問題の再定義
p(x1:n|η)はΦの最適化には依存しないため
推定
一点のみを推定
最尤推定
MAP推定
イメージ
確率で重み付けされた推定
イメージ
積分計算を解析的に行うことは困難
事後分布から何らかの方法でS個のサンプルを生成し、サンプル平均により予測分布を計算する
複数のΦを用いて推定
2.4 周辺化
結合分布から特定の変数を消去すること
例
確率変数x1,x2,x3の結合分布p(x1,x2,x3)からx2を積分消去
ベイズ推定では、観測データx1:nの尤度p(x1:n|Φ)を事前分布p(Φ|η)で周辺化したもの(上式)を周辺尤度(marginal likelihood)とよぶ
2.5 ギブスサンプリング
ベイズ推定では、事後分布からサンプルを生成し、サンプル平均により予測分布を構成する
事後分布から効率的にサンプルを生成する方法
多変量の事後分布に対して、それぞれの確率変数の条件先分布から交互にサンプリングを行う手法
例
確率変数Φ、𝛙、μによりデータx1:nの生成モデルを仮定
事後分布p(Φ、Ψ、μ|x1:n)を求めたい
p(Φ、Ψ、μ)が何らかのよく知られた確率分布になることはほとんどない
p(Φ、Ψ、μ) ≠ p(Φ|x1:n)p(Ψ|x1:n)p(μ|x1:n)
ギブスサンプリングでは、それぞれの確率変数に対する条件付き分布を用いて上記のように計算する
サンプリングを容易にするため、確率分布の事前分布として、共役事前分布(conjugate prior distribution)がよく用いられる
ベイズの定理により事後分布は上式となる
確率変数xの従う分布がp(x|θ)
Θの事前分布をp(θ)とする
事前分布と事後分布が同じ分布族に属するとき
サンプリングが容易
それぞれの変数への条件付き分布を計算する際に、ベイズの定理により結合分布の計算に帰着させ、条件付き分布の積に分解することで計算の見通しが良くなる
グラフィカルモデルが役に立つ
条件付き独立
3つのパターンの条件付き独立
Tail-to-tail型
Head-to-tail型
Head to-fead型

第3章ベイズ推定

3.1 交換可能性とデ・フィネッティの定理
定理:交換可能性
交換可能であるとき、変数の順番を変えても、変数の結合確率は変わらない
定理:デ・フィネッティ(de Finetti)の定理
確率変数が交換可能であるとき、任意のn個の結合確率は、ある確率変数Φを用いて、表現できる
p(x1:n)に交換可能性を仮定するとき、x1:nが独立分布にしたがっているように表現できる
p(xi|Φ)は観測データの尤度、p(Φ)は事前分布を表現している
3.2 ベイズ推定
観測データの尤度および尤度を構成するパラメータを確率変数としてその事前分布を仮定したとき
上記のベイズの定理により事後分布を計算できる
観測データx1:nが与えられたもとでのΦの事後分布
事後分布より予測分布を構成できる
真の生成源の分布p*(x)の推定
3.3 ディリクレ-多項分布モデル
ディリクレ-多項分布モデルでのベイズ推定の説明
前提条件
サイコロをn回振った時に出る目を生成モデルとする
K個の目が出るサイコロを考える
各目の出る確率をπ=(π1,π2,…,πk) (∑πk=1)
各目の出る確率が異なる歪んだサイコロ
Ziでi番目に投げたサイコロの目を表す
Z2=6は2番目に投げたサイコロの目が6出会ったことを意味する
N回なげる事による、生成されるサイコロの目の集まりzi(i=1,..,n)の生成確率
各サイコロの目の出現確率に対する確率でディリクレ分布を仮定
ディリクレ-多項分布モデル
グラフィカルモデル
データz1:nが得られたときのπは?
Πの事後分布
まとめると簡単な式になる
p(π|z1:n,αは?
予測分布は
式の変形
(B)部分はz1:nにおける頻度を正規化した確率
(C)部分は事前分布であるディリクレ分布の平均確率
予測分布はコレらを(A)部分の割合で足し合わせたもの
3.4 ガンマ-ガウス分布モデル
はじめに
ガウス分布の事後分布を求める
平均が確率変数で、分散が固定の場合の平均の事後分布
平均が固定で分散が確率変数の場合の分散の事後分布
平均と分散が確率変数の場合の平均と分散の事後分布
平均μ、共分散行列σ2IのD次元ガウス分布に対するサンプルx1:nの尤度
3.4.1 平均(μ)が確率変数で共分散行列(σ2I)が固定の場合
Μに対して事前分布を仮定
グラフィカルモデル
サンプル数n=1の場合
比例記号の上に対象とする変数をかくと
ガウス分布の式が導出される
サンプル数が2以上の場合
式は
予測分布は
3.4.2 平均(μ)が固定で共分散行列(σ2I)が確率変数の場合
確率変数σ2の事前分布として逆γ分布を仮定する
グラフィカルモデルは
サンプルx1:nが与えられたもとでのσ2の事後分布は
最終的な分布は
予測分布は
St:スチューデントt分布
3.4.3 平均(μ)および共分散行列(σ2I)の両方が確率変数の場合
τ:精度パラメータ(τ=1/σ2)の導入
μとτに対して独立した事前分布を仮定していない
μとτに対する事前分布
事前分布
事後分布もガウス分布とγ分布の席になる
グラフィカルモデル
事後分布の計算
最終解
周辺化
τ
μ
予測分布
3.5 周辺尤度
ベイズの定理
周辺尤度
積分の式
周辺尤度の役割
事後分布の計算の難しさは、周辺尤度が容易に計算できるかどうかに依存する
周辺尤度は、事前分布のパラメータの値を決める一つの指標としても重要な役割を果たす
周辺尤度が計算できる場合はp(x1:n|η)最大にするηを求めることで、事前分布のパラメータηを求めることができる
周辺尤度が計算できる場合の一般的な計算方法
省略(後で)

第4章クラスタリング

4.1 k-平均アルゴリズム
あらかじめ与えられたクラス数K個に各データ点を分類する
各クラスを代表する点をμk∈ℝd(k=1,2,…,K)とする
各データ点xiは、μkとの類似度が高いクラスへ分類される
xiとμkとの間の距離を定義し、距離が近い(類似度が高い)クラスへと分類
距離の尺度として平方ユークリッド距離を用いる
データ点xiが属するのがクラスkである時、変数zi∈{1,2,…,K}を導入してzi=kと表現する
各データ点のクラス情報があらかじめ与えられていないので、 ziは潜在変数(latent variable)または隠れ変数(hedden variable) と呼ばれる
各クラス内の平均ベクトルとクラス内でのデータ点との平方ユークリッド距離が小さくなるようにz1:K=(z1,z2,…,zn)と Μ1:K=(μ1,μ2,…,μK)を求めるアルゴリズム
最適化問題により定式化
アルゴリズム
4.2 混合ガウスモデルのギブスサンプリングによるクラスタリング
はじめに
最適化問題の目的関数は上式に変形できる
最終的な最適化問題は上式に書き換えられる
N(xi|μzi, I)は平均μzi,共分散行列Iのガウス分布から xiが生成されたと仮定した場合の生成確率
上式はZ1:nおよびμ1:Kが与えられたもとでのx1:nの結合確率(尤度)
対数尤度の最大化問題
K-平均クラスタリング法は、
K個のガウス分布N(xi|μk,I)の中から、最も対数尤度が高い分布をデータごとに選択
Z1:Kが与えられたもとでμkを最尤推定している
K-平均クラスタリング法は
分散固定の混合ガウスモデル
平均パラメータμ1:Kやクラス割り当てz1:nは、それぞれ貪慾的に最も尤度が高区なるように推定される
局所最適解に陥りやすい
分散の推定および平均パラメータやクラス割り当てなどを確率的に推定
4.2.1 分散固定の場合
分散固定の場合のギブスサンプリング
データx1:nが上記のように生成されたと仮定
xi,μiの事前分布としてガウス分布を仮定
Ziは多項分布から生成されるモデルを仮定
グラフィカルモデル
ギブスサンプリングによるデータ生成
ギブスサンプリングのポイント
結合分布を計算する
グラフィカルモデルと条件付き独立性およびベイズ定理を使って、結合分布を条件付き分布の積にする
条件付き分布の積から対象とする確率変数に関係のある部分のみ残して条件付き分布を計算する
手順
全ての確率変数の結合分布をグラフィカルモデルをもとに計算する
結合分布の式
ziに関する条件付き分布を計算する
ziに関係のある分布のみまとめていく
最終的なziの条件付き分布
正規化定数の計算
条件
μkに関する条件付き分布の計算
Μkに関係のあるぶんぷのみをまとめる
計算続き
条件
ギブスサンプリングに必要な条件付き分布
分散固定の場合の混合ガウスモデルのギブスサンプリングのアルゴリズム
K-平均クラスタアルゴリズム(上式)との違い
K-平均法では各ステップでN(xi|μk,I)を最大とするkを選択する
K平均法では、各ステップでμk=xkと決定的に決まる
ギブスサンプリングでは、各ステップでN(xi|μk,I)に比例する形でkが選ばれる
混合ガウスモデルのギブスサンプリングでは、各ステップでnk/(nk+1)*xkを平均とするガウス分布からμkはサンプリングされる
確立的なノイズが入る
4.2.2 分散も確率変数とする場合
分散も確率変数としてベイズ推定する
前提条件
データx1:nが上式で生成されたと仮定
多項分布のパラメータπもベイズ推定するために、 πの事前分布としてK次元のディリクレ分布を仮定
ディリクレ分布のパラメータを全て α=(α1,α2,…,αn)とする
グラフィカルモデル
計算
ギブスサンプリングを用いて事後分布p(z1:n,μ1:K,τ,π|μ0,p0,a0,b0,α)からのサンプルを計算する
全ての確率変数の結合分布をグラフィカルモデルをもとに計算する
Ziに関する条件付き分布の計算
Ziに関係のある分布のみまとめる
条件付き分布
正規化定数の計算
条件
μkに関する条件付き分布の計算
μkに関係のある分布のみまとめる
計算続き
ギブスサンプリングに必要な条件付き分布
Τに関する条件付き分布の計算
Τに関係のある分布のみまとめる
計算続き
ギブスサンプリングに必要な条件付き分布
πに関する条件付き分布の計算
Πに関係のある分布のみ切り出す
計算続き
ギブスサンプリングに必要な条件付き分布
平均も分散も確率変数とした場合の混合ガウスモデルのギブス散布リングアルゴリズム
各ziのサンプリング履歴をヒストグラムとしてみることでその中で最も頻度の高いクラスを売り当てる
ヒストグラムでみることで、そのデータのクラスタリングの安定度も分析できる
4.3 混合ガウスモデルの周辺化ギブスサンプリングによるクラスタリング
単にクラスタリングをしたい目的だと、 z1:nのサンプリング結果が得られればよく Μ、τ、πのサンプリング結果は不必要
Z1:nのみをサンプリングする方法
ギブスサンプリングにおいて、特定の確率変数を周辺化して、サンプリングする確率変数の数をを減らす方法
Μ、τ、πを周辺化してz1:kのみサンプリングする
基本的なアプローチ
結合分布に帰着
ベイズの定理で積に分解し、ziに関係のある部分を残して計算する
周辺化(積分消去)の導入
Ziに関する条件付き分布の導入
結合分布に分解する際には、グラフィカルモデルにおいてμ,τ,πを消去して依存関係を考える
xやzに関する分布は、それぞれxiやziに関する積の分布に分解できる
例
p(z1:n|π)は、条件付き独立性から上式のようにできる
p(π1:n|α)に関しては、確率分布の咳が積分の中に入るので、分解できない
途中省略
最終結果
混合ガウス分布の周辺化ギブスサンプリングアルゴリズム

第5章『無限次元』の扉を開く:ノンパラメトリックベイズモデル入門からクラスタリングへの応用

はじめに
ノンパラメトリックベイズモデルの導入としてディリクレ分布の無次元への拡張を考察
5.1 無限次元のディリクレ分布を考える
ノンパラメトリックベイズモデルの中心的な役割を果たす”ディリクレ過程混合モデル（Dirichlet Process Mixture Model, DPMM）の概要とアルゴリズム及び実装例について“で述べている「ディリクレ過程混合モデル(Dirichlet process mixture model)」について説明する
有限混合モデルの無次元化
なぜ無次元化か?
ディリクレ過程混合モデルのクラスタリングへの応用
クラス数を適切に決めないと、簡単なクラスタリングも行われない
現実の問題では次元数を事前に決めることは困難
データが動的に変化する場合、クラス数Kも動的に変化する必要性があるかもしれない
まず有限次元を仮定し、最終的に得られる結果に対して K→∞とした場合のディリクレ分布を考察する
まず上式のように仮定する
Dir(π|α/K)とすることで無限大に拡張可能となる
Dir(π|α/K)の2つの性質
各kでαkが同じ値であるため、事前分布としてはkに区別がない
次元Kが大きくなるに従い、ディリクレ分布のパラメータαkは小さくなる
α=(α1, α2, α3)を変化させた場合のディリクレ分布からのサンプル例
Kが大きくなると(αkが小さく)、三角形の頂点付近に点が分布する
特定の生口かの要素πkは高い値を持ち、その他の要素は小さい値を持ちようなπが生成される
周辺化ギブスサンプリング
πを含まない
Z1:n\Iに現れている{1,2,…,K}の集合を上式とする
K→∞の極限をとると
すでにサンプリングされた値は上式の確率で
それ以外の何らかの値は上式の確率でサンプリングされる
最後の方は不明(もう一度)
5.2 無限混合ガウスモデル
ディリクレ分布を無限次元に拡張したモデル
周辺化ギブスサンプリングは、潜在変数のサンプリングのみ行えれば良い
サンプリングの際に毎回新しいクラスもサンプリングの候補に入る
平均と分散のサンプリング゜
データを生成するガウス分布の共分散行列をτ-1Iと簡易的に対角行列にする
共分散行列をより厳格に推定する方法
「続・わかりやすいパターン認識」に解説
5.3 周辺尤度から見るディリクレ分布の無限次元化
K→∞とした場合の周辺尤度について
まとめ
5.4 分割の確率モデル
前述の分割に関する確率は、中華料理店過程(Chinese Restaurant Process,CRP)としてディリクレ-多項式モデルと独立に提案されている
CRPの動作例
5.5 ディリクレ過程
CRPの背後にあるディリクレレ分布についての説明
で・ばっくの定理によりCRPの背後にあるGやそれを生成するp(G)の存在が明らかになる
Gは”ディリクレ過程（Dirichlet Process, DP）の概要とアルゴリズム及び実装例について“で述べているディリクレ過程(Direchlet process)と呼ばれる
5.6 集中パラメータαの推定
5.7 その他の話題
ディリクレ過程の他に棒折過程(stick-break process,SBP)がある
変分ベイズによるサンプリングアルゴリズム提案されている
変分ベイズは決定的形ではやい
変分ベイズでは次元数の上限を決める必要がある
隠れマルコフ過程のための階層ディリクレ過程

第6章構造変化推定への応用

6.1 統計モデルを用いた構造変化推定
時系列データを解析する際の外つの問題設定として、データの構造変化がある
データの性質の変化を分析する問題は変化点検出してい母瀬広く研究されている
データの変化を考える際には、データの中に幾つの変化があるか予測できない
データの構造変化の例
6.2 ディリクレ過程に基づく無限混合線形回帰モデルによる構造変化推定
無限混合線形回帰モデルによる構造変化推定について
6.3 ディリクレ過程に基づく無限混合線形回帰モデルのギブスサンプリング
げん混合線形回帰モデルのギブスサンプリングについて
6.4 実験例
人工データでの実験例
人工データのプロット
結果

第7章因子分析・スパースモデリングへの応用

はじめに
スパースモデリングにおけるノンパラメトリックベイズモデルについて
ベータ過程について説明
7.1 因子分析
「観測データは隠れた因子の合成らよって構成された量である」と仮定し、個々の構成因子を解析するための技術
観測データyi∈ℝD(i=1,…,N)が、 zi,k∈{0,1}, xk∈ℝD(k=1,…,K)を用いて上式で表現できる
Zi,k=1は、観測データiが因子kを有していることを表す
因子kを特徴付ける情報がxkによって表現される
Y = ZX + E
Zが0と1のみを成分とする因子分析の例
行列分解は、分解する行列に制約を持たせることで様々な方法がある
“特異値分解(Singular Value Decomposition, SVD)の概要とアルゴリズム及び実装例について“でも述べている特異値分解は、直交性という制約
要素として実数をとる
非負値行列分解では、行列の要素が皮膚値であるという制約
上記の例は、片方の行列Zが0と1のみを成分とする制約
0の成分が多い場合は疎(スパース)な行列と呼ばれる
Zの列の次元Kに対して無限を仮定する事前分布を用いることで
観測データを表現するK+の因子を推定することが可能な、ノンパラメトリックベイズモデルについて説明
7.2 無限次元バイナリ行列の生成モデル
Zの事前分布として無限次元のものを考える
データをもとに事後分布を求める腰で次元数を推定する
無限次元のバイナリ行列 (Kを固定しないバイナリ行列) の生成過程のアイデア
バイナリ行列における交換可能性をベースに考える
右の階段状の行列とすると、行が増えることによって列が増える生成モデルが考えられる
Zi,kの生成過程として上式を仮定
ベータ-ベルヌーイ分布モデル
事後分布p(π1:K|z,α)
続き
mk
計算続き
結果
式
K→∞とすると
まとめると
無限次元のバイナリ行列の生成過程
インド料理ビュッフェ過程 (indian buffet process, IBP)
IBPによるバイナリ行列の生成例
7.3 周辺尤度から見る無限次元のバイナリ行列の生成モデルと交換可能性
ベータ-ベルヌーイ分布モデルにおけるK→∞としたときの周辺尤度を分析する
ベータ-ベルヌーイ分布モデルによるzi,kの生成過程を上式とする
ベータ-ベルヌーイ分布モデルではzi,kはそれぞれ独立に生成される
列を入れ替えて一致する行列は全て同じ確率となる
有限の場合の周辺尤度は上式となる
バイナリ行列を、列である各潜在特徴kごとに見れば、 N次元のバイナリベクトルと見ることができる
N次元のバイナリベクトルは2N種類のバイナリベクトルと取ることができる
履歴バイナリベクトルとその出現回数
途中省略(わからない)
周辺尤度の式
Ziとzjの順番を交換しても{Kh}も{mk}も値は変わらない
CRPとディリクレ過程と同様に、 IBPにはベータ過程(beta-process)が対応する
7.4 無限潜在特徴モデル
潜在特徴モデルの無限化
生成過程
ギブスサンプリングの式の導出

第8章測度論の基礎

8.1 可測空間、測度空間、確率空間
例
前提条件
サイコロを一回振る試行を考える
出る目の集合をΩ={1,2,3,4,5,6}とする
出る目ω∈Ωは標本と呼ぶ
集合Ωは標本空間と呼ぶ
Ωの部分集合Aは事象と呼ぶ
例:A={2,4,6}は出た目が偶数である事象
部分集合の集合Fを事象の族と呼ぶ
例
Ω={1,2,3,4,5,6}の場合、 {1}∈F、{2}∈F、…{6}∈Fのように標本一つだけの集合はFに属する
奇数を表す{1,3,5}∈F、偶数を表す{2,4,6}∈F、標本空間ΩもF
確率Pの計算は、部分集合の要素数を数えることにより P(A)=|A|/|Ω|などとする(|A|はAの要素数)
例
サイコロを1回振るときの出た目が偶数
P(A)=|{2,4,6}|/|{1,2,3,4,5,6}|=3/6=1/2
実数の世界
区間(0,1)からランダムに実数1点を取るとき、 (0,0.5)の区間に値が入る確率は?
実数の数を数えると無限大になる
区間の場合の数ではなく、区間の長さに注目して計算する
0.5/1=0.5
2次元や3次元ではどうすれば良いか?
面積?体積?
点の数、長さ、面積が持つ性質からこれらを一般化することで、ある空間に関する量を測るもの
測度に基づく確率
測度論は「測る」ことを数学的に考える分野
測ることができるもの(集合)とは何か?
測った結果、その値(測度)はどのような性質を持つべきか?
定義(σ-加法族、可測集合、可測空間)
定義(測度、測度空間、有限測度、σ-有限測度)
可測集合に対して測度がもつべき性質
例
可測空間([0,+∞], F)
区間に対して長さを対応させる測度μ([a,b])=b-aは
An=[n,n+1]と対応させれば、μ([0,+∞])=∞なので有限測度ではない
μ(An)=1<∞なのでσ-有限測度
定義(確率測度、確率空間、標本空間、事象、事象の族)
有限測度μを用いてP(A)=μ(A)/μ(Ω)とすることで確率測度を作れる
8.2 可測関数と確率変数
実数上の関数f(x)は、区間[a,b]において連続であるならば、リーマン積分の意味で∫abf(x)dxがで意義可能な関数である
可測関数は「測度空間(Ω,F,μ)上で、可測集合A∈F(A⊂F)を与えると、実数値∫Af(ω)μ(dω)を返す関数」
μ(ω)dωではなく、μ(dω)なのは
測度はある区間に対する測定値なので、微小空間dω⊂Ωの測定値を表すため
Ωを時間軸と考えると、 μ(dω)は時間軸上での微小区間 dω(=[ω,ω+dω])における測度を表す
具体的な例
ルーベク測度を用いたルーベク積分
可測関数の具体的な定義
確率変数の説明をわかりやすくするため、半開区間としているが、それに限る必要はない
測度として確率測度を用いると上式は期待値を計算していることになる
可測関数は期待値を計算することができる関数のクラス
定義:(実数値)確率変数
任意の実数α<βに対して確率変数Xは上式を満たす
確率変数Xは、任意の範囲[α,β)に対してその範囲に値を持つ確率を計算できる関数のこと
位相空間Sに対して、半開区間や閉区間などのあらゆる区間と、それらから合併、共通集合、穂集合をとる操作を有限または加算無限回施して得られるものからなる集合族
ボレル集合族の要素
例:SとしてℝやℝDが挙げられる
ボレル集合族を用いて可測関数の定義は上式のように言い換えられる
確率変数は任意のボレル集合B∈B(S)に対して
X(ω)∈Bに値を持つ確率P({ω∈Ω|X(ω)∈B})を計算できる関数と言える
確率変数の一般的な定義
ボレル集合のイメージ
S=ℝ
半開区間B=[α,β] と置き換えて考える
8.3 単関数、非負値可測関数、単調収束定理
定義:単関数
集合Aの定義(指示)関数を上式とする
単関数は階段状の関数
Aiの測度をμ(Ai)とすると、可測関数による積分は上式になる
(まずは単関数で解析したのち、) 一般の加速関数ー拡張する時に使う定理
定理:単関数による近似定理
定理:単調収束定理 (monotone convergence theorem)
単調収束定理においてfn=𝜑nとすれば、非負値加速関数の積分は、単関数の積分を用いて、上式のように定義できる
8.4 確率変数の分布(確率分布)
確率変数の分布について
X:Ω↦Xを確率空間(Ω,F,P)上の確率変数とする
任意のボレル集合B∈B(X)に対して上式と定義すると
Pxは、可測空間(X,B(X))上の確率測度になる
または、確率変数Xは分布Pxに従うという
例:確率空間(Ω,F,P)上の確率変数Xが平均0,分散1の1次元ガウス分布に従う
任意のボレル集合B∈B(ℝ), 例えばB=[-1,2]に対して
上記のように計算できる
任意のボレル集合B∈B(X)に対して、 P({ω∈Ω|X(ω)∈B})=Px(B)=∫Bp(x)dxと計算できる時
8.5 期待値
前提条件
X:Ω⟼Xを(Ω,F,P)上の確率変数とする
Φ(x)をX上のボレル可測関数とする
Φ(x)の期待値は上式と定義される
確率変数に関する期待値計算の定理
確率変数とそれが従う分布(ガウス分布やガンマ分布等)を仮定すれば
その背後にある確率空間を考えなくとも、期待値が計算できる
8.6 確率分布のラプラス変換
前提条件
確率変数X:Ω⟼Xが従う確率分布をPとし
Pが確率密度関数p(x)を持つ
T∈ℝに対し、ℝ上で定義された上式の関数を確率分布/確率密度のラプラス変換とよぶ
例
ポアソン分布の場合は、X〜Po(λ): P(n)=λn/n!e-λより上式となる
ガンマ分布の場合は、X〜Ga(a,b): p(x)=ba/Γ(a)xa-1e-bxより上式となる
8.7 “確率1″で成り立つ命題
(Ω,F,P)を一般の確率空間とする
Ω∈Ωの集合{ω∈Ω|¬prop.(ω)}が可測集合であって、その確率密度が上式である時
「確率1で命題prop.(ω)が成り立つ」という
例
確率変数X,Yについて「XとYが確率1で等しい」とは
確率1でf=g
確率1でf=gの時は、期待値が等しくなる
8.8 ランダム測度
(Ω,F,P)を確率空間とする
(X,S)を可測空間とする
写像M:ΩxS⟼[0, +∞] (すなわち、ω∈Ω, A∈Sに対してM(ω, A) ∈ [0, +∞])を導入する
写像Mが上記の性質を持つとする
ランダム測度(random measure)
ランダム測度に対する2種類の積分
1
2
期待測度
通常の確率変数に対する期待値の概念のランダム測度における類似物
変形
8.9 ランダム測度のラプラス凡関数
ラプラス変換に対応する概念をランダム測度に対して考える
ランダム関数Mのラプラス汎用関数
ラプラス汎関数における単調収束定理
ランダム測度の独立性

第9章点過程からみるノンパラメトリックベイズモデル

9.1 点過程とは
ノンパラメトリックベイズモデルを構成する確率過程は
点過程
離散的に発生する事象を抽象化した「点」集合と各点が持つ「何らかの量」に関する統計モデル
時間軸や平面、さらに一般的な空間上の「点」配置の確率的なメカニズムを解析するのに役立つ
点過程は「点」と「棒」の統計モデル
イメージ
例
ある地点における交通事故の発生場所
将来的にどのようになるうるかというのを現時点のデータから予測したい
ある領域Aにおける点の個数を出力する変数N(A)を考える
N(A)の定式化
無限和なのは、将来的に発生しうる点も含めるため
各点に付随している長さ1の棒を足し合わせる (棒(重み)の方にも確率的な性質があるとすると
マーク付き点過程(marked point process)
9.2 ポアソン過程
時間軸(1次元)上での点過程
Tで時間軸を表す
確率空間(Ω,F,P)上で定義された確率変数の集合{Xt}を確率過程(stochastic process)と呼ぶ
標本ωを固定すると、時間tだけを変数とする一つの関数が定まる
この関数を標本関数(sampling function)、見本関数(sample function), パス(path)などと呼ぶ
例:猫の足跡の時間変化
Ωを動物の集合
庭先に確率的に動物が現れる時の確率空間(Ω,F,P)とし
ω∈Ωを猫とし
その足跡の数をXt(ω)とする
たびたびωは省略される
標本関数が上式の時、連続であるという
定義:加法過程
強度関数(intensity function)と呼ばれる T上の非負値関数λ:T⟼[0,∞)を導入する
計測過程(Nt)t∈Tが上記の性質を持つ時、ポアソン過程(Poisson process)と呼ばれる
ポアソン過程の例
猫の訪問の発生度合いは時間軸上の強度関数λ(t)に依存する
ある区間[s,t]の強度関数の値λ([s,t])が大きい区間ほど、足跡が発生する確率が高くなる
強度関数λを推定することで、将来的な猫の訪問の発生数を推定できる
汎化のための考察
N([s,t})はωを固定していたので、ωを考慮して
[s,t]をT=[s,t]∈Tとすると
Tも一次元ではなく2次元、3次元に拡張できる
定義:ポアソン過程・ランダムポアソン測度
ポアソンランダム測度の直感的な説明
9.3 ポアソンランダム測度のラプラス凡関数
確率分布は、ラプラス変換により別の表現を得ることができる
定理:ポアソンランダム測度のラプラス変換
9.4 ガンマ過程
点過程に重みwiを加える
ポアソン過程では重みwi=1
定義:ガンマ過程・ガンマランダム測度
ガンマランダム測度の説明
重みつきガンマ過程(weighted gamma process)
9.5 ガンマランダム測度のラプラス凡関数
ガンマランダム測度のラプラス汎関数
9.6 ガンマランダム測度の離散性
ガンマランダム測度は離散速度として表現することができる
9.7 正規化ガンマ過程
9.8 ディリクレ過程
定義ディリクレ過程・デリクレランダム速度
ディリクレランダム測度の説明
定理
9.9 完備ランダム測度
定義:完備ランダム測度
定理:完備ランダム測度のラプラス汎関数
ベータランダム測度の説明
定理:完備ランダム測度のレヴィ-伊藤分解
点過程のまとめ

サマリー

「機械学習プロフェッショナルシリーズ-ノンパラメトリックベイズ 点過程と統計的機械学習の数理」

コメント

「機械学習プロフェッショナルシリーズ-ノンパラメトリックベイズ点過程と統計的機械学習の数理」