機械学習プロフェッショナルシリーズ「変分ベイズ学習」読書メモ

機械学習技術人工知能技術デジタルトランスフォーメーション技術確率的生成モデル本ブログのナビ変分ベイズ学習

サマリー

変分ベイズ学習は、ベイズ推定における確率的なモデルに変分法のアプローチを適用して、近似的に事後分布を求めるもので、確率分布が複雑で解析的に求めることが難しい場合や、大規模なデータに対して効率的に推定を行いたい場合に有用な手法となる。変分法は、物理学の古典力学や量子力学、最適制御理論、経済学、電気工学、光学、統計学などの分野で幅広く応用されている汎用的な手法であり、関数の集合の中から最適な関数を選び、さらにその関数の最小値や最大値を求める最適化の手法となる。変分ベイズ推定は、それらを踏まえて、ある族（family）内の関数空間で定義された確率分布として変分分布を定義し、ベイズの定理によって得られる事後分布とそれらの間で、ある種の距離や情報量の指標に基づいて最適化計算を行うものとなる。ここでは機械学習プロフェッショナルシリーズ「変分ベイズ学習」をベースにこの変分ベイス学習について述べる。

機械学習プロフェッショナルシリーズ「変分ベイズ学習」読書メモ

機械学習プロフェッショナルシリーズ「変分ベイズ学習」より読書メモを記述する。

まえがき
第1章確率とベイズの定理

はじめに
確率の基本的な概念についてのおさらい

1.1 同時分布

例
女性でありかつエビフライ好きである確率(Pr(a=A,b=Ḃ)=0.4
男性でありかつハンバーグ好きである確率(Pr(a=Ā,b=B)=0.3
男性でありかつエビフライ好きである確率(Pr(a=Ã,b=Ḃ)=0.2
同時分布(joint distribution)

1.2 周辺分布

例
無作為に選ばれた人が男女を問わずハンバーグ好きである確率
無作為に選ばれた人が男女を問わずエビフライ好きである確率
同時分布に従う確率変数の一部について、それらが取りうるすべての値について足し上げる計算
周辺分布(marginal distribution)

1.3 条件付き分布

例
男女の比が(0.5, 0.5)から(0.4,0.6)に変わるとどうなるか?
「女性と男性のそれぞれの食の嗜好が変わらない」という仮定
女性あるいは男性だけを集めてアンケート調査を行った時、ハンバーグ好きとエビフライ好きとの比率が変わらない
女性(あるいは男性)である確率、すなわち周辺確率p(a)を用いて、同時確率分布p(a,b)を規格化
変数aが与えられた時の変数bに関する条件付き分布(conditional distribution)
例
条件付き確率の計算例
例
人事異動後のハンバーグ(エビフライ)好きの確率の計算

1.4 ベイズの定理

条件付き分布のaとbを入れ替える
例:ハンバーグ(あるいはエビフライ)好きな人だけを集めてその中から無作為に選んだ一人が女性(あるいは男性)である確率
上式の2つを同時確率p(a,b)を経由してつなぐ
ベイズの定理(Bayes theorem)
条件付き確率分布p(b|a)と周辺分布p(a)が与えられると、それらから確率変数と条件に含まれる変数が入れ替わった条件付き分布p(a|b)を計算する手段となる
ベイズの定理の異なる表現
例
ハンバーグ好きという事実が観測されたもとでの、この人が女性(男性)である確率
未知の変数aに依存する条件付き分布p*(b|a)の確率変数と条件に含まれる変数をベイズの定理により入れ替えることで
例
人事異動前での計算
p(a)およびp*(a)はベイズ学習における事前分布

第2章ベイズ学習の枠組み

はじめに
ベイズ学習の枠組みについて紹介

2.1 ベイズ事後分布

観測データが従う(と仮定される)確率的な法則を確率モデル(probabilistic model)と呼ぶ
ベイズ学習における確率モデル
未知のモデルパラメータω∈Wに依存する観測データDの条件付き確率分布である
モデル尤度(model likelihood)と呼ぶ
モデルパラメータωに関する (観測データが得られる前の事前知識を表現する)
ベイズ学習(Bayesian learning)
観測データDと確率モデル {p(D|ω), p(ω)}が与えられた時
事後分布(posterior distribution) p(ω|D)を計算する
メモ:一般の確率モデル
観測データとモデルパラメータとの同時分布
p(D|ω):モデル分布
p(ω):事前分布
確率モデルは観測される変数と観測されない変数の同時分布として与えられる
観測されない変数には、モデルパラメータの他に潜在変数(latent (hidden) variable)zが含まれる
確率変数が複数あるときには、同時分布はモデルを指定する「超パラメータ(hyperparameter)Kに依存する
一般の確率モデル
ベイズの定理
周辺尤度p(D)を計算できれば、上式により事後分布を計算できる
p(D|ω)p(ω):確率モデル
観測データDの分布
周辺尤度は分配関数(partition function)とも呼ばれる
同時分布p(D,ω)をパラメータωに関して周辺化することで得られる
パラメータが離散変数の時
δ:デッラックのデルタ関数
例:観測値x∈ℝが分散1の1次元ガウス分布の場合
平均値パラメータω=μを推定する
N回の独立な観測データD={x(1),…,x(N)}に対する確率分布は上式となる
事前分布として平均0,分散1のガウス分布を用いる(上式)
事後分布は上式となる
メモ:尤度と周辺尤度
条件付き確率分布p(D|ω)に観測値Dを実際に代入すると、未知パラメータωの関数になる
値が大きいほど実際に観測されたデータをより良く説明
未知パラメータωのもっともらしさを表す指標
周辺尤度p(D)はパラメータωに関して周辺化しているので、パラメータに依存しない定数となる
何についてのもっともらしさを示すのか?
(Ωの関数としての)確率モデル{p(D|ω), p(ω)}に依存し、そのもっともらしさを示す
周辺尤度は、モデル選択や超パラメータ推定に利用される
ベイズ学習の欠点
事後分布の右辺の分子は簡単に計算できるが、分母(周辺尤度p(D)を計算するための積分演算が困難)
周辺尤度p(D)は未知パラメータωに関して周辺化されて定数
事後分布の形は簡単にわかる

2.2 事後確率最大化推定法

事後確率の形状がわかれば、事後確率を最大にするパラメータを求めることができる
事後確率最大化推定(maximum a posteriori(MAP) estimation)法
最尤推定(maximum likelihood(ML) estimation)の一般化
メモ:正則化法と事後確率最大化推定法の関係
観測データとモデルとの不適合度を表す損失項(loss term) L(D,ω)と
過学習(overfitting)を防ぐために用いられる正則化項(regularization term) R(ω)を定義
その和を最小化する統計手法(正則化法と呼ばれる)
事後確率最大化推定法として解釈できる
事後確率最大化推定法の目的関数である同時分布の対数の符号反転(上式)を最小化することで、事後確率最大化推定量は得られる
第一項は損失関数
第二項は正則化関数

2.3 ベイズ学習

事後確率最大化推定法とベイズ学習の本質的な違い
ベイズ学習法の利点
未知変数の推定精度に関する情報がしぜに得られる
過学習しにくい
全ての未知変数を単一の枠組みで観測データから推定できる
モデル選択や超パラメータ推定ができる
これらの利点を享受するためには、以下のうち少なくとも一つの量を計算する必要がある
周辺尤度(0次モーメント)
ベイズ事後分布の規格化因子(規格化を行うために乗算あるいは除算される定数)
超パラメータ推定やモデル選択は、この量を最大化することで実行される
事後平均(posterior mean) (1次モーメント)
<・>は分布pに関する期待値を示す
任意の関数f(ω)に対して<f(ω)>p(ω)=∫f(ω)p(ω)dω
事後平均はベイズ推定量(Bayesian estimator)とも呼ばれる
パラメータωの推定量として用いられる
事後共分散(posterior covariance) (2次モーメント)
Tは業りつあるいはベクトルの転置を表す
事後共分散は推定されたパラメータの信頼区間を表現するのに使われる
予測分布(predictive distribution) (モデル分布の期待値)
p(Dnew|ω)はモデル分布に未観測の新しいデータDnewを確率変数として代入したもの
予測分布は、将来観測されるであろうデータの確率分布を直接与える
計算が困難な場合は、モデル分布にベイズ推定量を代入したものp(Dnew|ὠ)で代用される
なぜ比例定数を計算できないことが大きな問題なのか?
上記の4つの量は全て周辺尤度p(D)に依存する
上記の4つの全ての量は何らかの関数f(ω)に関して∫f(ω)・p(D,ω)dωという形の積分計算が必要
p(D,ω)をωに関する企画化されていない確率分布としてみると
周辺尤度は0次モーメント
事後平均は1次モーメント
事後共分散は2次モーメント
0次モーメントである周辺尤度が計算できないと、他の3つの量も計算困難となる
積分計算を近似する方法の2つのカテゴリ
第1のアプローチ
事後分布に従うサンプルω(1),…,ω(T) 〜p(ω|D)を計算機上で発生させ
積分をサンプル平均で近似する方法
手法
(ωについて)企画化されてない分布p(D,ω)を用いてサンプルを生成
ギブスサンプリング(Gibbs sampling)
メトロポリタンヘイスティングス法(Metropolis-Hastings algorithm)
第2のアプローチ
ベイズ事後分布にできるだけ近い関数を期待値計算可能な関数クラスの中から選ぶ方法
変分ベイズ学習(variable Bayes learning)
期待値伝搬法(expectation’s propagation)

2.4 経験ベイズ学習

ベイズ学習を行うには、必ず事前分布を定義する必要がある
特にこれといって考慮すべき事前知識がない場合どうすれば良いか?
なるべく予見を含まないフェアな事前分布として「無情報事前分布」を利用する
複数の事前分布を準備してその中から最も観測データに適合するものをモデル選択により選ぶ
メモ:無情報事前分布
未知パラメータに対して全く事前情報がない時、できるだけ偏りの小さい事前分布π(ω)を使いたい
アプローチ
最も単純な方法
平坦分布p(ω)∝1を利用する
課題
Ωの定義行が融解でない時非正常(improper) (企画化されていない確率分布の0次モーメントが発散するため、規格化が実行できない)
パラメータの取り方に依存する
ジェフリーズ事前分布(Jeffreys prior)
フィッシャー情報量(Fisher information)を考慮したもの
パラメータ変換に不変な、確率分布間のカルバック・ライブラー・ダイバージェンス (Kullback-Leibler divergence)の意味で均一に事前分布
課題
ジェフリーズ事前分布は非正常
事後分布の期待値計算は困難
経験ベイズ(empirical Bayesian learning)あるいは第二種最尤推定(type 2 maximum likelihood estimation)
未知パラメータkに依存する事前分布p(ω|k)
K:超パラメータ(hyperparameter)
超パラメータを含む事前分布を用いた周辺尤度
超パラメータに依存する関数
観測データDが与えられたときの超パラメータのもっともらしさを表現する
周辺尤度を最大化することで超パラメータを推定する
メモ:超パラメータ推定とモデル選択
確率モデルの候補を複数個準備し、観測データDに最も適合するモデルを選ぶこと
連続値の超パラメータを導入して経験ベイズ学習を行う

第3章確率モデルの例

はじめに
基本的な確率モデルと少し複雑な実用的確率モデルの紹介

3.1 ガウス分布モデル

M次元観測ベクトルx∈ℝMが、未知のモデルパラメータω=(μ, Σ)によって技術されるM次元ガウス分布に従うとする
μ∈ℝM:M次元平均値ベクトル
ℝMはM次元実数ベクトル
Σ∈𝕊++MはMxM共分散行列
𝕊++Mは正定値対称行列(positive definite symmetric matrix)の集合
対称行列とは転置しても変わらない正方行列
正定値行列とは、全ての固有値が正である対称行列
|Σ|は行列Σの行列式(determinat)
この観測をN回独立に行って得られる観測データD={x(1),…,x(N)}に対する確率分布
仮定
全てのx(n)が同一の分布に従って生成される
n≠n’なる全ての観測ベクトルの組{x(n),x(n’)}が独立である
共役事前分布はパラメータω=(μ,Σ)のうちどれをベイズ学習するかによって変わる
平均値パラメータμのみをベイズ学習する場合にはガウス事前分布
共分散パラメータ(の逆数)Σ-1のみをベイズ学習する場合にはウィシャート分布
μとΣ-1の両方をベイズ学習する場合には、これらを組み合わせたガウス-ウィシャート分布
Μ0, Σ0, V0, v0, λ0は超パラメータ
事前知識がない場合は経験ベイズで点推定する
共分散パラメータが単位行列に比例する(Σ=σ2IM)ガウス分布
式
等方的ガウス分布
非等方的ガウス分布

3.2 線形回帰モデル

入力xと出力yとの組みが、未知のモデルパラメータw=(α, σ2)に依存する上式の確率的法則に従う確率モデルを考える
式
線形回帰モデルと呼ばれる
Ε=y-αTxとして、確率の式に代入すると上式になる
前提条件
N個の入出力の組み D={(x(1),y(1)},…,(x(N),y(N))}が観測されたとする
観測ノイズε(n)=y(n)-αTx(n)が異なるサンプル間n≠n’で独立であるとする
モデル尤度は上式となる
線形回帰問題は、入力xと出力yとの関係を関数フィッティング(curvefitting)する際に最もよく利用されるモデル
低次元の入力tを高次元の入力xに非線形写像することで Tに関して非線形な入出力関係を表現することもできる
1次元の入力変数t∈ℝをM次元の入力変数(1,t,t2,…,tM-1)T∈ℝに写像すると
式
共役事前分布はパラメータのうちどれをベイズ学習するかによって変わる
回帰パラメータαのみをベイズ学習する場合はガウス分布
ノイズ分散パラメータ(の逆数)σ-2のみをベイズ学習する場合はガンマ分布
Αおよびσ-2の両方をベイズ学習する場合はガウスーガンマ分布
線形回帰モデルの例

3.3 自動関連度決定モデル

上式のように生成されるモデルを考える
観測値y∈ℝL
未知変数α∈ℝL
X∈ℝLxM
ノイズε∈ℝLの各成分が独立にガウシアン分布に従うと仮定
観測データD=yおよびモデルパラメータω=(α,σ2) に対するモデル尤度の式
線形ガウスモデル(linear Gaussian model)と呼ばれる
線形回帰モデルはL=N次元の線形ガウスモデルに相当
yはL次元ベクトルなので、上式はL個の等式から成り立っている
L<Mの場合はノイズがなくても、αを一意に推定できない
解決する方法
α上の事前分布として、等方的ガウス分布p(α)=NormM(α;0,σ02IM)を用いれば
αの事後確率最大化推定量は上式となる
正則化法の一つであるリッジ回帰(ridge regression)
自動関連度決定事前分布 (automatic relevance determination(ARD) prior)を用いて超パラメータCを経験ベイズ学習しても L<Mの解が得られる場合がある
事前共分散に対応する超パラメータC=Diag(c12,…,cM2)∈𝔻Mは体格行列に制限
自動関連度決定モデル(automatic relevance determination model)と呼ぶ
自動関連度決定事前分布を用いて経験ベイズ学習を行う意味は?
自動関連度決定事前分布は、平均が0で、分散cm2が成分mごとに異なる事前分布
Cm2が非常に小さい時、対応する成分がam=0である確率が非常に大きくなる
経験ベイズ法により超パラメータCを推定すること
推定量αEBは疎なベクトル(sparse vector)である傾向がある
Αの推定量として疎なベクトルが得られる (=線形回帰モデルで少数の入力成分で出力を説明)
例
画像処理の自然画像のウェーブレット空間(wavelet space)上の疎なベクトルへの近似

3.4 多項分布モデル

排他なK種類の事象が上式の確率で起こるとする
∆K-1:(K-1)次元標準新婦レックス(standard simplex)
上式の試行をN回繰り返した時のヒストグラムは多項分布(multinomial distribution)にしがう
上式の試行をN回繰り返した時のヒストグラム
ⅡKはK個の整数からなるベクトルの集合
ℍNK-1はNサンプル、Kカテゴリヒストグラムの集合
多項分布はガウス分布とならぶ基本的な確率分布
混合分布モデルや潜在ディリクレ配分モデルの構成要素として、ベイズ学習によく使われる
ヒストグラム観測値D=xが多項分布に従うモデル
共役事前分布はパラメータのうちどれをベイズ学習するかによって変わる
未知パラメータω=θに関する共役事前分布は ∆K-1上の確率分布であるディリクレ分布

3.5 行列分解モデル

前提条件
行列の形で与えられる観測データD=V∈ℝLxMを考える
観測行列が、低ランク(low-rank)の信号行列U∈ℝLxMとノイズ行列ε∈ℝLxMとの和で表されると仮定する
行列Uを低ランクに制限するために、積の形で表現する
A∈ℝMxH
BℝLxH
H≤min(L,M)
行列分解モデル
行列の列ベクトルを太字の小文字、行ベクトルをチルダ付きの太字の小文字で表す
行列の成分
ノイズ行列εの各成分が独立にガウス分布Norm(εl,m;0,σ2)に従うと仮定
観測行列Vの確率分布は上式となる
続き
∥・∥FROは”フロベニウスノルムの概要とアルゴリズム及び実装例“で述べているフロべニウスノルム(Frobenius norm):行列の全成分の二乗和
変分ベイズ学習を可能にするために、行列Aおよび行列Bそれぞれに対して条件付き共役であるガウス分布を用いる
tr(・)は行列のトレース(trace): 西方行レッの対角成分の和
共役事前分布はパラメータのうちどれをベイズ学習するかによって変わる
自動関連度決定によって適切なランクを推定したい場合は、対角な事前共分散行列(上式)を用いる
Diag(c1,…,cH)はc1,..,cHを対角成分にもつ対角行列を表す
行列分解モデル(matrix factorization model)
応用例
確率的主成分分析 (Probabilistic principal component analysis)
古典的な手法である主成分分析の確率的な拡張
観測値v∈ℝLが、潜在変数ã∈ℝHに上記の形で依存する確率モデルを考える
B∈ℝLxHは低次元潜在変数空間∈ℝHから高次元データ空間∈ℝLへの線形写像
Ε∈ℝLは観測ノイズ
成分ごとに独立なガウス分布ε〜Norm(0, σ2IL)に従うものと仮定する
確率的主成分分析モデルの観測ベクトルv
M個の観測値V=(v1,…,vM)が与えられた時
これらがã〜NormH(0,IH)に従う潜在変数AT=(ã1,…,ãM)に上式の形で依存するとする
確率分布はCA=IHとしたものに一致する
線形写像行列B上に事前分布を導入すれば、行列分解モデルの確率的主成分分析モデルとしての解釈が得られる
主成分分析により次元削減を行うには
潜在変数ãの空間の次元である、行列UのランクHを適切に設定することが重要
ベイズ学習のモデル選択機能によりHを観測データから適切に推定できる
縮小ランク回帰モデル
多次元の入力x∈ℝMと出力y∈ℝLの関係を低ランク写像で回帰する
式
入出力データに対する前処理を前提とした行列分解モデルの特別なケース
ノイズはガウス分布ε〜NormL(0,σ2IL)に従うと仮定
縮小ランク回帰モデルの解釈
入力xをAT∈ℝHxMによって低次元(H次元)空間に写像した後、 B∈ℝLxHによって出力空間に写像する
縮小ランク回帰モデルのイメージ
前提条件
N個の入出力データ(上式)が観察されたとすると
モデル尤度は上式となる
入力はあらかじめ白色かされ、出力は中心化されていると仮定
入出力間の共分散行列を観測行列(上式)とする
スケールを上式のように修正したノイズ分散を考える
モデル尤度は未知パラメータω=(A,B)の関係として上式のように書ける
協調フィルタリング
観測行列Vの一部が欠損値を持つ状況を考える
V∈ℝLxMの成分のうち、観測されているものの集合を𝚲とするとモデル分布は上式となる
続き
P𝚲(V):ℝLxM ↦ ℝLxMは観測値そのものに、未観測値を0に写像する関数(上式)
#(𝚲)は集合の数(観測された成分の数)
例:ユーザー(user)が商品(item)をどれくらい好むか
ユーザーの嗜好を表現すると仮定される低ランク行列を、観測された成分のみから推定
欠損値*を、推定された低ランク行列に基づいて予測
観測行列Vを低ランク行列Uで近似することで欠損値を予測する方法

3.6 混合分布モデル

ガウス分布や多項分布のような基本的な分布の重ね合わせによって作られるモデル
式
α=(α1,…,αk):混合重みパラメータ(mixture weight)
(K-1)次元標準新婦レックス(上式)に値をとる
続き
個々の成分の分布p(x|τk)は混合成分(mixture component)と呼ばれ、異なるパラメータτkを持つ
このモデルの未知パラメータはω=(α, τ1,…, τk)
N個のi.i.d.観測データD={x(1),…,x(N)}が与えられたとするとモデル尤度は上式となる
複数の混合成分が複雑に掛け合わされているので計算は困難
補助的な未知変数に関する周辺尤度と考えて、モデル尤度を扱いやすくする
上式の確率モデルを考える
多項分布(1番目の式)に従って、サンプルがどの混合成分kに属するかを記述する潜在変数(latent variable)が生成される
次(2番目の式)に従って、潜在変数が指定する混合成分から観測値xが生成される
ek∈{0,1}Kはの番目の成分のみが1であり、その他の成分が0であるK次元の2価ベクトル
z=eKのとき、サンプルがk番目の混合成分から生成されたことを意味する
とりうる価の集合{ek}k=1Kは1サンプルヒストグラムの集合ℍ1K-1に一致する
上式の確率モデルから、潜在変数zを積分消去(integrate out)してxに関する周辺尤度を計算すると上式になる
観測値xと潜在変数zの同時分布(上式)を用いる
N個のi.i.d.観測データD={x(1),…,x(N)}に対して、それぞれに対応するN個の潜在変数H={z(1),…,z(N)}を導入すると、観測データと潜在変数の同時分布は上式となる
単項式で、観測値ごとおよび混合成分ごとに因数分解できる形となっている
完全尤度(complete likelihood)と呼ばれる
混合分布モデルにおける最尤推定法、事後確率最大化推定法およびベイズ学習を含むほとんどの計算はこの完全尤度に基づいて行われる
条件付き共役事前分布は
混合重みパラメータαについてはディリクレ分布
混合成分パラメータ{τk}k=1Kについては混合成分p(x|τk)の共役事前分布になるの

3.7 混合ガウス分布モデル

混合成分としてはM次元ガウス分布を用いる混合分布モデル
式
混合ガウス分布モデル
条件付き共役事前分布としてはガウスーウィシャート分布ベースの分布が使われる
μ,σだけを学習場合にはガウス事前分布、ウィシャート事前分布を使う

3.8 潜在的ディリクレ配分モデル

潜在的ディリクレ配分(latent Dirichlet allocation)モデル
文書データの次元削減法としてよく用いられる
前提条件
M個の文書の集合がある
各文書mはN(m)個の単語{ω(n,m)}n=1N(m)からなる
L種類の単語を1-of-L表現ω(n,m)∈{el}l=1Lとする
各単語は潜在的なトピックz(n,m)∈{eh}h=1Hに属すると仮定
各文書は異なるトピック分布θ∈∆H-1を持つ
各トピックは異なる単語分布βh∈∆L-1を持つ
潜在的ディリクレ配分モデルの式
一般的な混合分布モデルとの違い
上式を混合成分として持つ
潜在的ディリク毛配分モデルのグラフィカルモデル
水色の縁は観測される変数
白色の縁は観測されない変数
矢印は変数間の依存関係
H,NおよびMとラベル付けされた囲いはプレート(plate)と呼ばれ、その中ののーどがそれぞれH,NおよびMこ存在することを意味する
事前分布としてはθmおよびβhそれぞれに対して条件付き共役であるディリクレ分布が使われる
文書ごとのトピック分布をMxH行列の形にまとめて文書パラメータΘ=(θ1,…,θM)Tと呼ぶ
トピックごとの単語分布をLxH行列の形にまとめてトピックパラメータB=(β1,…,βH)と呼ぶ
観測データD
と
潜在変数H
の同時分布は上式となる
観測データDに関する周辺確率は上式となる
続き
潜在的ディリクレ配分モデルの解釈
トピック数Hをランクとする低ランク行列BΘTで多項分布パラメータUを近似する行列分解モデルとして見れる

第4章共役性

はじめに
モデル尤度と事前分布の共役性を利用して事後分布(規格化因子を含めて)を解析的に求める

4.1 代表的な確率分布

確率モデルを構成するモデル尤度p(D|ω)および事前分布p(ω)は上表で示すような代表的な確率分布p(x|ω)から構成される
青色の部分は確率変数に依存しない「規格化因子(normalization factor)」
確率が足すと1になる条件を満たすための日ような定数
確率の式にとって複雑なのは、規格化因子
本体は意外とシンプル
ベイズ学習では規格化因子の複雑さにはあまり悩まされない
規格化因子はベイズ学習に必要となる積分計算を助けてくれる
定義より、本体(確率変数に依存する黒字の部分)の積分値は
ベイズ学習において必要となる積分計算のほとんどは規格化因子を通して行うことができる
右の表は4つのカテゴリに分類される

4.2 共役性の定義

共役性(conjugacy)は、確率モデル{p(D|w),p(w)}を構成するモデル尤度p(D|w)と事前分布p(w)との関係について定義される
定義:共役事前分布
事前分布p(ω)と事後分布p(ω|D)とが同じ関数形になるような事前分布を
共役性が役に立つには他の条件も必要
任意の分布関数を含む関数クラスを事前分布とする
計算の役に立たない
計算の役に立つためには
事前分布と事後分布とが同じ分布関数のクラスに入っているだけではなく
その分布関数のクラスに対して期待値計算 (少なくとも規格化因子と平均値(一時モーメント)) の計算が容易にできることが暗に仮定されていること
事後分布の関数形について考える
共役性について考える場合は、常にパラメータωに関する関数形に注目する
p(D|ω)を観測データDの関数(すなわちモデル分布)としてではなく、パラメータωの関数(すなわちモデル尤度)としてみることが重要
それぞれの分布の略記
ガウス分布
ガンマ分布
ウィシャート分布
多項分布
ディリクリ分布

4.3 等方的ガウス分布モデルの場合

前提条件
最も簡単な例として「等方的ガウス分布モデル」を考える(上式)
N個のi.i.d.観測データD={x(1),…,x(N)}に対するモデル尤度は上式となる
等方的ガウス型尤度関数
共役性を考える際には、観測データDを確率変数とする確率分布をパラメータωの関数としてみる
等方的ガウス分布のパラメータ(μ,σ2)のうち、まず平均値パラメータμのみをベイズ学習する (すなわちω=μ)
モデル尤度をμの関数とみなして比例定数を省略する
指数関数の中の和のうち、 μに依存する部分だけを取り出して整理する
ẋはサンプルの平均値
3番目の式で上式は比例定数(μが現れない)として省略
最後の式は、モデル尤度p(D|μ)が(μの関数として)平均ẋ, 分散σ2/Nの等方的ガウス分布と同じ形をしていることを示す
平均値パラメータの最尤推定量は上式となる
等方的ガウス分布モデルの平均値パラメータに関するモデル尤度
一個のサンプルxに対する等方的ガウス分布が、平均パラメータμに関しても等方的ガウス型になる
等方的ガウス型関数が積に関して閉じている
平均値の異なる等方的ガウス型関数同士の積が等方的ガウス型関数
メモ
モデル尤度の関数形が積に関して閉じていることは、ベイズ学習を容易に実行する要
このような性質を持つ分布族
確率変数とパラメータをうまく変換(t=t(x),η=η(x))することで、確率分布が上式の形にかけるもの
A(・)とB(・)は任意の関数
A(・)はtに、B(・)はηに依存してはいけない
パラメータと確率変数との相互作用が必ずexp(ηTt)の形をしていることがポイント
事前分布としてp(η)=exp(ηTt(0) – Ao(η) + Bo(t(0))を用いて
N個の観測値D=(t(1),…,t(N))=(t(x(1)),…,t(x(N)))が得られたとすると
事後分布は同じ指数分布族の形で書ける(上式)
ηは自然パラメータ(natural parameter)
tは十分統計量(sufficient statics)
全て指数分布族に含まれる
K=(μ0,σ02)ヲ超パラメータとして持つ等方的ガウス事前分布を常識とすると
事後分布の関数型は上式となる
最終的な事後分布は上式となる
ガンマ型尤度関数
分散パラメータσ2のみをベイズ学習する場合
モデル尤度をσ2の関数とみなして比例定数を省略すると上式となる
分散の逆数の関数とする
ガンマ分布の形となる
分散パラメータの最尤推定量は上式となる
等方的ガウス分布モデルの分散パラメータに関するモデル尤度はガンマ型になる
ガンマ型も積に関して閉じている
事後分布の関数形は上式となる
K=(α0,β0)を超パラメータとして持つガンマ分布(上式)を用いると
続き
最終的な事後分布の式は上式となる
等方的ガウス-ガンマ型尤度関数
平均と分散の両方をパラメータω=(μ,σ-2)とみなしてベイズ学習する場合
Μに関して平方完成することにより上式が得られる
ここで等方的ガウス-ガンマ分布として
続き
等方的ガウスーガンマ分布は等方的ガウス分布とガンマ分布の積
等方的ガウス分布の分散パラメータがガンマ分布の確率変数に依存するモデル
xとγは独立ではない
等方的ガウスーガンマ分布も積について閉じている
事後分布は上式となる
k=(μ0, λ0, α0,β0)を超パラメータとして持つ等方的ガウス-ガンマ事前分布(上式)を用いると
ただし
事後分布の最終式は上式となる
式は複雑だが、各種モーメントは計算できる

4.4 ガウス分布モデルの場合

一般のガウス分布モデルでも、等方的ガウス分布モデルとほぼ同様に解析できる
共分散パラメータΣをベイズ学習する際には、ガンマ分布の多次元拡張であるウィシャート分布が現れる
前提条件
未知のモデルパラメータω=(μ,Σ)によって記述されるM次元ガウス分布上式)を考える
N個のi.i.d.観測データD={x(1),…,x(N)}に対するモデル尤度は上式となる
ガウス型尤度関数
平均値パラメータμのみに注目して共分散パラメータΣを定数とみなしたときのモデル尤度は
事後分布の関数形は上式となる
k=(μ0,Σ0)を超パラメータとして持つガウス事前分布(上式)を用いると
続き
ただし
最終的な事後分布は上式となる
ウィシャート型尤度関数
共分散パラメータΣのみをベイズ学習する場合
平均値パラメータμを定数とみなすとモデル尤度は上式となる
等方的ガウス分布の場合と同様に、モデル尤度を共分散行列の逆行列Σ-1の関数として取り扱う
事後分布の関数形は上式となる
k=(V0,γ0)を超パラメータとして持つウィシャート事前分布(上式)を用いると
最終的な事後分布は上式となる
ウィシャート分布はガンマ分布の多次元拡張でありM=1の時一致する
ガウスーウィシャート型尤度関数
平均パラメータと共分散パラメータの両方をベイズ学習する場合
パラメータω=(μ, Σ-1)を考えたときのモデル尤度は上式となる
続き
ここでガウスーウィシャート分布として上式とする
ガウス-ウィシャート型関数も積について閉じている
事後分布の式は上式となる
k=(μ0, λ0, V0,γ0)を超パラメータとして持つガウス-ウィシャート事前分布(ジョウシキ)を用いると
続き
ただし
最終的な事後分布は上式となる

4.5 線形回帰モデルの場合

ω=(a, σ2)をパラメータとする線形回帰モデルについて考える(上式)
N個のi.i.d.観測データD=y={y(1),…,y(N)}T, X=(x(1),…,x(N)に対するモデル尤度は上式となる
ガウス型尤度関数
回帰パラメータaのみをベイズ学習する場合
モデル尤度の指数部分を展開し、回帰パラメータaの関数として平方完成すると上式となる
XTXの逆行列が存在するときaの最尤推定量が上式となる
事後分布の関数形は上式となる
k=(a0, Σ0)を超パラメータとして持つガウス事前分布(上式)用いると
ただし
最終式な事後分布は上式となる
ガンマ型尤度関数
分散パラメータσ2のみをベイズ学習する場合
モデル尤度は上式となる
最尤推定量は上式となる
事後分布の関数形は上式となる
k=(α0,β0)を超パラメータとして持つガンマ事前分布(上式)を用いると
続き
最終的な事後分布は上式となる
ガウス-ガンマ型尤度関数
回帰パラメータaと分散パラメータσ2の両方をベイズ学習する場合
モデル尤度はをω=(a, σ-2)の関数とすると上式となる
ガウス-ガンマ分布を上式とする
事後分布は上式となる
k=(μ0,Λ0, α0,β0)を超パラメータとして持つガウス-ガンマ事前分布(上式)を用いると
ただし
最終的な事後分布は上式となる

4.6 多項分布モデルの場合

前提条件
排他なK種類の事象が起こる確率(上式)をパラメータとして持つ
ヒストグラム上の
多項分布モデルを考える
ディリクレ尤度関数
モデル尤度をパラメータω=θの関数としてみると上式となる
1Kは全ての成分が1であるK次元ベクトル
多項分布モデルのモデル尤度はディリクレ型関数
ディリクレ型関数が積について閉じている
事後分布は上式となる
k=Φを超パラメータとして持つディリクレ事前分布(上式)を用いると
最終的な事後分布は上式となる
メモ:多項分布の特別な場合
多項分布はK=2のとき、二項分布(binomial distribution)(上式)になる
多項分布はK=2,N=1のとき、ベルヌーイ分布(Bernoulli distribution)(上式)になる
ディリクレ分布はK=2のとき、ベータ分布(bata distribution)(上式)になる
ベータ関数

第5章予測分布と経験ベイズ学習

はじめに
周辺尤度、事後平均、事後共分散、予測分布を事後分布から計算する
事後平均と事後共分散は、事後分布がよく知られている形の分布であれば、事後分布を指定するパラメータの値から容易に計算できる
予測分布と周辺尤度は、事後分布を導出する時と似た計算により得られる

5.1 事後平均(ベイズ推定量)と事後共分散

ベイズ学習について完了するには、 4つの量を必要に応じて計算する
周辺尤度
事後平均
事後共分散
予測分布
どのパラメータをベイズ学習するするかによって事後分布の形は異なる
いずれの場合も事後分布は代表的な確率分布の形をしている
等方的ガウス分布モデル
ガウス分布モデル
線形回帰モデル
多項分布モデル
事後平均や事後共分散を持ちめるためには、よく知られる分布の平均と共分散を求めれば良い
代表的な確率分布の1次および2次統計量

5.2 予測分布

はじめに
新たな観測値Dnewに対する予測分布は、再び分布が積に関して閉じていることを利用して計算可能
線形回帰モデルおよび多項分布モデルでの予測分布について実際に計算する
5.2.1 線形回帰モデルの場合
前提条件
ω=a∈ℝMを未知パラメータとする線形回帰モデルについて(上式)
N個のサンプル
モデル尤度
事前分布として、平均0、共分散Cのガウス分布(上式)を用いる
事後分布は上式となる
ただし
新たな入力x*に対する出力y*の予測分布の計算
予測分布は(新たな入出力上の)モデル分布の事後分布に関する期待値
被積分関数を積分変数である平均パラメータaの関数として平方完成する
予測分布は新たな出力y*の関数なので、 y*に依存する量は省略せずに積分の外に出す
続き
ここで上式を用いる
計算続き
続き
ここで
最終的な予測分布
結果の例
観測データが中央府半にしか存在しないので、両端で信頼区間(confidence interval)が広がる
5.2.2 多項分布モデルの場合
前提条件
未知パラメータω=θ=(θ1,…,θk)∈∆K-1を持つ観測データD=x=(x1,…,xk)∈ℍNK-1上の多項分布モデル(上式)
事後分布は上式となる
新たなサンプルx*∈ℍに対する予測分布は上式となる
続き
予測分布の式は
だだし

5.3 周辺尤度

線形回帰モデルの周辺尤度を計算する
周辺尤度はモデル選択や超パラメータ推定のための記述として用いられる
計算の途中で不用意に比例定数を除けない
全てのモデル候補が超パラメータk=Cによって記述されている場合には、 k依存性のみに注目して依存しない因子を省略できる
全く異なる複数の確率モデルからモデル選択を行うような場合は、全ての因子を考慮する必要がある
周辺尤度計算
続き
規格因子の式より
最終的な式(線形回帰モデルの周辺尤度)

5.4 経験ベイズ学習

経験ベイズ学習(empirical Bayesian learning)では、周辺尤度p(D|k)を最大化することによって超パラメータkを推定する
対数尤度の符号反転
式
log(・)は単調関数なので、
周辺尤度の最大化
線形回帰モデルのベイズ自由エネルギーは上式となる
超パラメータである事前共分散行列を体格行列に固定する
この事前分布で軽毛かベイズ学習を行うと「自動関連度決定(automatic relevance determination)が起こる
自動関連度決定モデルにおける、ベイズ自由エネルギーの振る舞いの様子
経験ベイズ推定量(empirical Bayesian estimation)
ジェームス・スタイン型推定量(James-Stein type estimator)
最尤推定に対する優越性とうの性質を持つ

第6章変分ベイズ学習

はじめに
多くの実用的な確率モデルにおいて、共役性に基づいてベイズ学習を解析的に行うことはできない
しかしそれらのうちの多くは、共役性を持つ基本的な確率分布の組み合わせによって構成される
変分ベイズ学習は、確率モデルが持つ部分的な共役性に基づいて事後分布に制約を与え、その制約の範囲内でベイズ事後分布を近似する手法

6.1 変分ベイズ学習の仕組み

ベイズ学習を汎関数の最小化問題として定式化
汎関数とは、関数を変数として持つ関数
前提条件
r(w)をパラメータwの空間の任意の確率分布
自由エネルギー(free energy)あるいは変分自由エネルギー(variable free energy)
続き
ここで上式は、確率分布p1(ω)から確率分布p2(ω)へのカルバック・ライブラー・ダイバージェンス (Kullback-Leiblerdivergence)
F*≡-logp(D)はベイズ自由エネルギー
自由エネルギー(上式)を最小化することは
事後分布に最も近い分布を見つけることに相当
制約なし最小化問題を解く(上式)ことにより得られる解は
ベイズ事後分布(上式)に一致する
ベイズ問題を最小化問題として定義
期待値計算を解析的に実行できるようなγは限られている
最小化問題は、 γが特別な関数形を持つ領域を除いて、目的関数を評価することすら困難
変分ベイズ学習では、目的関数の期待値計算を可能とするために付加される制約付き最小化問題(上式)を解く
s.t.:subject to の略制約条件γ∈ｇが満たされる中で最小化問題を解くことを意味する
ｇとして特定の(ガウス分布等)分布けいをえらべば、全てのr∈ｇに対して、自由エネルギー評価のための期待値計算が可能になる場合がある
変分ベイズ学習では、
最適な関数形がモデル尤度の部分的な共役性に基づいて自動的に選択されるように、なるべく弱い制約(広い探索域ｇ)を設定する

6.2 条件付き共役性

行列分解モデル、混合ガウス分布モデルおよび潜在的ディリクレ配分モデルが、 (期待値計算可能な)共役事前分布を持たないことを確認する
行列分解モデルのモデル尤度の式
ベイズ学習すべき道パラメータは赤あるいは青に色付け
パラメータω=(A,B)の関数としてみる
指数関数の中に4次の項∥BAT∥2Fro=tr(BATABT)を持つ
指数関数の中に2次の項しか持たないガウス分布とはあきらかに異なる
指数関数の中に4次の項を持つ関数の積分を解析的に行うことはできない
パラメータω=(A,B)に関する共役事前分布はない
混合ガウス分布のモデル尤度
各ガウス分布の共分散が全てΣk=σ2IM
σ2はベイズ学習しない想定
潜在変数H={z(n)}n=1Nは、未知モデルパラメータω=(α,{μk}k=1K)とともにデータから推定する
潜在的ディリクレ配分モデルのモデル尤度
上記のモデルは未知パラメータ全体に対する共役事前分布は持たない
定義6.1 条件付き共役事前分布
未知パラメータ(あるいは広く未知変数) ω=(ω1,ω2)を2つに分割し、ω2を定数と考える
ω1上の事前分布p(ω1)と事後分布(上式)とが同じ関数形になるとき
この事前分布p(ω1)をモデル尤度p(D|ω)のパラメータω1に関する (ω2が与えられた元での)
メモ:条件付き共役性のその他の利用方法
条件付き共役性は、変分ベイズ学習以外にも重要な役割を果たす
マルコフ連鎖モンテカルロ法の一つであるギブスサンプリング(Gibbs sampling)方では、
他のパラメータω2が与えられた元で ω1の事後分布が(サンプル生成が容易な) よく知られる分布になることを利用して各パラメータを順にサンプルしてマルコフ連鎖を生成する
周辺化ギブスサンプリング(collapsed Gibbs sampling)、周辺化変分ベイズ学習(collapsed variational Bayesian learning)、部分ベイズ学習(partially Bayesian learning)では
パラメータの一部を条件付き共役性に基づいて周辺化した後残りのパラメータに関してそれぞれギブズサンプリング法、変分ベイズ学習あるいは事後確率最大化推定法を適用する

6.3 設計指針

条件付き共役性に基づいた変分ベイズ学習の設計
前提条件
ベイズ学習する未知パラメータωをS個のグループω=(ω1,…,ωS)に分割
全てのs=1,…,Sに対して、モデル尤度がωsに関する条件付き共役事前分布p(ωs)を持つようにする
事後分布(上式)は ωsの関数として事前分布p(ωs)と同型となり {ωs’}s’≠sが定数として与えられた元で、期待値計算が可能になる
この分割のもとで事前分布(上式)を用いると
ωsに関する期待値計算を{ωs’}s’≠sと独立に実行できるようにするために事後分布に上式の独立性を制約条件として課す
自由エネルギーの中の期待値計算を実行可能にし、最小問題を解く
変分ベイズ事後分布 (variational Bayesian posterior)の定義
事後分布の各因子を別々に最適化する
自由エネルギーを有限次元の未知変数 (変分パラメータ)の関数としてように書き表せる

6.4 変分法

汎関数の極値条件から解である関数が満たすべき条件を求める方法
変数関数γの微笑変化に対する (滑らかな)目的関数F(γ)の変化量
γが極小解であるためには、全てのωのとりうる値に対して変分が0であることが必要
変分法は、目的関数F(r)が変数関数r(ω)の微分 (例えばdr/dω1等)を含む場合にも用いることができる
自由エネルギーには微分の項はない
変分δIはγに関数単なる微分によって計算される
パラメータの定義域W内の全ての点において成立する必要がある
無限次元内の停留条件(stationary condition)と解釈できる
変分δI=δI(ω)は、変数関数γ(ω)をW内の全ての点をインデックスとして持つ (全ての点における値を独立な成分と考えた) 無限次元のベクトルと考えたときの、勾配に相当する

6.5 変分ベイズ学習アルゴリズム

適用式
最小化問題(上式)を解くために、
自由エネルギー(上式)に
γ(ω)およびp(ω)として上式を代入する
左の分解条件を使って分解することで、各因子γs(ωs)に対する自由エネルギーの変分を計算する
分解の条件
この条件が全てのs=1,…,Sおよびωs∈Wsについて成り立つことが変分ベイズ事後分布であるための必要条件
右辺はωsの関数
変分ベイズ学習のための局所探索(local search)アルゴリズム
変分ベイズ事後分布の平均値
予測分布の推定には、モデル分布に変分ベイズ推定量を入れたものが使われる

6.6 経験変分ベイズ学習アルゴリズム

周辺尤度p(D)の計算は困難なので、その代用として自由エネルギーF(γ)が用いられる
変分ベイズ学習の枠組みでは
ベイズ自由エネルギー-logp(D)の上限である自由エネルギーを最小化することで、モデル選択や超パラメータ推定を行う
事前分布やモデル尤度が超パラメータkを持つとき、自由エネルギーは上式となる

6.7 行列分解モデルの場合

はじめに
行列分解モデルでの、変分ベイズ学習および経験変分ベイズ学習のアルゴリズムの導出
モデル尤度と事前分布の式
Vは観測行列
A∈ℝMxHおよびB∈ℝLxH(ただしH≤min(L,M))は未知パラメータ
事前分布は未知の対角共分散行列(上式)を超パラメータとして持つ
観測ノイズパラメータσ2は、学習方法が精度推定に大きな影響を与えないため超パラメータとして扱う
6.7.1 変分ベイズ学習アルゴリズムの導出
事後分布にA,B間の独立性を制約条件として課して自由エネルギーを最小化した条件
上記の独立性制約のもとでの自由エネルギーの式
続き
γA(A)およびγB(B)それぞれに関する変分法を適用して、停留条件に相当する式として上式が得られる
モデル尤度(矢印①)とAの事前分布(矢印②)を (矢印③)に代入すると上式になる
ただし
最終的にγAは上式となる
続き
同様に、モデル尤度(矢印①とBの事前分布(矢印②)を (矢印③)に代入してB依存のみに注目すると上式となる
ただし
最終的にγBは上式となる
事後分布の平均および分散を求める
変分ベイズ事後分布が決まる
ΓAおよびγBがガウス分布であることがわかっているので、表5.1より
これらより変分パラメータは上式となる
変分パラメータに適当な初期値を設定して、左の式を収束するまで繰り返し適用するこで局所解がえられる
6.7.2 変分パラメータの関数としての自由エネルギー
自由エネルギーFをγAおよびγBの汎関数としてではなく、変分パラメータ(Â, ΣA, Ḃ,ΣB)の関数として求める
上式を用いて、汎関数最適化問題から、関数最適化問題としてとく
続き
最適化問題に関するポイント
6.7.3 経験変分ベイズ学習アルゴリズムの導出
経験変分ベイズアルゴリズムは、自由エネルギーを最小かする変数に、超パラメータk=(Ca,CB,σ2)を含めることにより導出される
続き
自由エネルギーを事前共分散Ca,およびCB(の対角成分)で偏微分すると上式になる
停留条件として上式が得られる
自由エネルギーをノイズ分散σ2で偏微分すると上式となる
停留条件として上式が得られる
適当な初期値から上の2つの指揮を繰り返すことで、経験変分ベイズ解が定まる
行列分解モデルの経験変分ベイズ学習アルゴリズム

6.8 欠損値のある行列分解モデルの場合

はじめに
観測行列の全ての成分が観測されていない場合にも、同じ方針で変分ベイズ学習アルゴリズムが導出できる
A,Bの事後共分散が欠損の影響を受けて計算は複雑になる
欠損のある場合のモデル尤度
事前分布には欠損のないものと同じものを使う
6.8.1 変分ベイズ学習アルゴリズムの導出
欠損値のない停留条件
欠損値の影響を修正した式
続き
ただし
∑(l,m)∈𝛬は観測されたインデックス(l.m)∈𝚲全てについての和
∑l;(l,m)∈𝛬は与えられたmに対して、(l.m)∈𝚲を満たす全てのlについての和
ΓA(A)は平均amおよび分散𝚺A,mがそれぞれ上式を満たすガウス分布(上式)となる
同様にγBは上式のように修正される
ただし
γ(B)は平均bmおよび分散𝚺B,lがそれぞれ上式を満たすガウス分布(上式)となる
欠損値のあるモデルの場合は、あおよびBの各行ベクトルの共分散が行ごとに異なる(mおよびlに依存する)
最終的な式は上式となる
変分ベイズ事後分布の1次および2次モーメントは上式となる
欠損値がない場合と同様に上式を収束するまで繰り返すことで変分ベイズの局所解が得られる
6.8.2 変分パラメータの関数としての自由エネルギー
自由エネルギーは変分パラメータの関数として上式で表される
6.8.3 経験変分ベイズ学習アルゴリズムの導出
自由エネルギーをC2ah,c2bh,σ2でそれぞれ偏微分すると、超パラメータの更新則が得られる
続き
適当な初期値を設定したのち、上式を収束するまで繰り返すことで、経験変分ベイズ学習の局所回が得られる
アルゴリズム:欠損値のある行列分解モデルの経験変分ベイズ学習アルゴリズム
欠損値の予測には対応する成分の事後平均(上式)が用いられる

6.9 混合ガウス分布モデルの場合

はじめに
混合ガウス分布モデル(上式)に変分ベイズ学習を適用する
前提条件
まず、簡単のため、混合ガウス成分の共分散は全て既知であり、単位行列の場合を考える
αの事前分布には対称(均一)ディリクレ事前分布を用いる
μkの事前分布には平均0の等方的ガウス分布を用いる
N個のi.i.d.観測データD={x(1),…,x(N)}と、それぞれに対応するN個の潜在変数H={z(1),…,z(N)}に対するモデル(完全)尤度は上式となる
6.9.1 変分ベイズ学習アルゴリズムの導出
混合ガウス分布モデルでは、モデル尤度を取扱しやすくするために潜在変数H={z(n)}n=1Nを導入した
未知パラメータω={α, {μk}k=1K)に加えて、潜在変数の近似事後分布をもちめる必要がある
混合ガウス分布モデルでは、未知変数を潜在変数とパラメータに分割することで条件付き共役性が利用できる
混合ガウス分布モデルの変分ベイズ学習では、上式の最小問題を解く
この独立性制約のもとでは、自由エネルギーは上式のようにかける
γH(H)およびγω(ω)それぞれで変分法を適用して、停留条件を算出すると上式となる
上式にモデル尤度を代入して、潜在変数Hのみに注目すると上式が得られる
ここでzk(n)は上式を満たす
潜在変数の事後分布はサンプルごとに独立な多項分布となる
ここで
一方で、上式にモデル尤度を代入して、パラメータωのみに注目すると上式が得られる
ただし
続き
パラメータの事後分布がαに関するディリクレ分布と {μk}k=1Kに関する等方的ガウス分布の席であることがわかる
ただし
最終的な期待値の計算
事後分布を記述する変分パラメータは上式となる
ここで
期待値を用いて得られた結果をまとめると上式となる
ただし
ここで、{z(n)}n=1N,αおよび{μk,σ2k}k=1Kは変分パラメータであり上式を満たす
ただし
続き
必要に応じて①指揮を使いながら、 ②式によって変分パラメータを収束するまで更新すれば、変分ベイズ学習の局所解が得られる
6.9.2 変分パラメータの関数としての自由エネルギー
これまでの結果を用いて自遊エネルギーを変分パラメータ{z(n)}n=1N、α、{μk,σk2}k=1Kの関数として表す
6.9.3 経験変分ベイズ学習アルゴリズムの導出
自由エネルギーを超パラメータk=(Φ,σ02)で偏微分すると上式になる
∂F/∂Φ=0とすると停留条件が得られるが、これをΦに関して解くことはできない
2回微分(上式)に基づいた
ニュートン-ラフソン(Newton-Raphson method) (上式)によってΦを更新する
ここでΨm(z)≡dm𝚿(z)/dzmは m次のポリガンマ関数(polygamma function)
事前分布σ02は上式となる
アルゴリズム:混合ガウス分布モデルの経験変分学習アルゴリズム
適当な初期値を設定したのち、上式を収束するまで繰り返すことで、経験変分ベイズ学習の局所回が得られる
メモ:やってはいけないγ関数の比の計算
ガンマ関数の取り扱いには注意(オーバーフローを起こす)

6.10 潜在的ディリクレ配分モデルの場合

はじめに
潜在的ディリクレ配分モデルの変分ベイズ学習を導出する
前提条件
モデル尤度と事前分布は上式で表される
6.10.1 変分ベイズ学習アルゴリズムの導出
混合ガウス分布モデルの場合と同様に、潜在変数H={{z(n,m)}n=1N}m=1Mと、未知パラメータω=(Θ,B)上の近似事後分布γ(H,ω)を求める
未知変数を潜在変数とパラータに分割することで条件付き共役性を利用する
上式の独立性制約のもとで、自由エネルギー上記のようにかける
ΓH(H)およびγω(ω)それぞれについて変分法を適用すると、停留条件として上式となる
上式(①)にモデル尤度(②)を代入して、潜在変数H依存性のみに注目すると上式が得られる
ただし
上式は潜在変数の事後分布が多項分布であることを示す
ここで
一方で、上式(①)にモデル尤度(②)を代入して、パラメータω依存性のみに注目すると上式が得られる
ただし
続き
上式は、変分ベイズ事後分布は、パラメータΘおよびBに関して独立であり、またΘ=(θ1,…,θM)Tの各行およびB=(β1,…,βH)の各列に対して独立なディリクレ分布となることを示す
ただし
これまでの結果を用いて期待値を計算すると上式となる
最終的な潜在的ディリクレ配分モデルの変分ベイズ事後分布は上記のように表現できる
続き
ここで
ただし
適当な初期値を設定したのち、上式を収束するまで繰り返すことで、経験変分ベイズ学習の局所回が得られる
6.10.2 変分パラメータの関数としての自由エネルギー
自由エネルギーを変分パラメータ((z(m,n)}n=1N}m=1M、Θ、Bの関数として上式で表す
6.10.3 経験変分ベイズ学習アルゴリズムの導出
自由エネルギーを超パラメータk=(α,η)で偏微分すると上式となる
続き
Δn,n’はクロネッカーδ(Kronecker delta)
これらに基いた”ニュートン-ラフソン法（Newton-Raphson Method）について“で述べているニュートン-ラフソン法(上式)を用いて超パラメータを更新する
∂F/∂xはxに関する勾配(gradient)
∂2F/∂x∂x’はxに関するへシアン(Hesian)
max(・)はベクトルの成分ごとに作用する
すなわち
適当な初期値を設定したのち、上式を収束するまで繰り返すことで、経験変分ベイズ学習の局所回が得られる
アルゴリズ:潜在的ディリクレ配分モデルの経験変分ベイズ学習
メモ:条件付き共役性が利用できない確率モデル

第7章変分ベイズ学習の性質

はじめに
変分ベイズ学習はあくまでも近似法なので、ベイズ学習の特徴が全て継承されているという保証はない
モデル選択能力や、過学習のしにくさの点で有用性は実験的な確認されている
実験的成功を裏付ける理論的解析結果について議論する

7.1 非漸近理論と漸近理論

はじめに
変分ベイズ学習は、パラメータ間の独立性のみを仮定することによって、事後分布の関数形を限定することなく期待値計算を可能にする方法
実際に、独立性が仮定される変数は本来強い相関を持つパラメータであり
独立性制約により事後分布はガウス分布やディリクレ分布のような基本的な関数形を持つ分布になる
変分ベイズ学習に関する理論成果
欠損値のない行列分解モデルとそれに類似の双線型モデルに限定的に適用された、有限個の観測データの元てせ成立する理論
大域解放の発見
疎性を誘起する相転移現象の解明
ベイズ学習との振る舞いの比較およびモデル選択(超パラメータ推定)性能の理論的保証
潜在変数を含む確率モデルを中心に多くの確率モデルに適用された、大サンプル極限での変分自由エネルギーの振る舞いを評価する理論
ベイズ事後分布への近似誤差評価
超パラメータに関する変分ベイズ解の相転移現象の解明

7.2 行列分解モデルにおける変分ベイズ学習の非漸近理論

はじめに
欠損値のない行列分解モデルの変分ベイズ学習についてまとめる
観測行列V∈ℝLxMに対するモデル分布と未知パラメータA∈ℝMxHおよびB∈ℝLxH に対する事前分布として上式を考える
ただし、しせ
7.2.1 変分ベイズ大域解
観測行列の”特異値分解(Singular Value Decomposition, SVD)の概要とアルゴリズム及び実装例について“でも述べている特異値分解が上式で与えられるとする
γh≥0はh番目に大きいVの特異値
ωah∈ℝMおよびωbh∈ℝLは対応する右および左特異ベクトル
補題:大域解の事後分布∑Aおよび∑Bは対角である
補題
新しい変分パラメータ{ah, bh, σ2ah,σ2bh}h=1Hを用いて自由エネルギーを書き直すと上式となる
ただし
自由エネルギーの変分パラメータ依存性は全て第4項に含まれる
各Fhは第h成分にしか依存しない
各Fhを4変数{ah, bh, σ2ah,σ2bh}に関して独立に最小化することができる
停留条件は上式となる
連立多項方程式に容易に変換可能
定理
変分ベイズ解は縮小特異値分解
その推定特異値γhVBは観測特異値γhが閾値よりも小さい時は0、大きい時は縮小推定値になる
変分ベイズ解が特異成分単位で疎になるのはこの閾値現象による
変分ベイズ事後分布は、上記の定理で観世に記述される
7.2.2 事後分布の振る舞い
ベイズ事後分布と変分ベイズ事後分布の振る舞いを図示するために、 L=M=H=σ2=1の場合を考える
式
ベイズ事後分布は上式となる
適当な比例定数を設定することでその形を図示できる
事前分布がほぼ平坦(ca2=cb2=10000)な場合の具体的な図
(規格化されていない)ベイズ事後分布
変分ベイズ事後分布
図の解説
V=0の時(左)
ベイズ事後分布は軸上に対称な峰を持ち、原点でピークを持つ
これを近似する変分ベイズ事後分布は、原点にピーク(変分ベイズ推定量)を持つガウス分布
V=1の時(中)
ベイズ事後分布のピークは第1象限(A,B>0)と第3象限(A,B<0)にそれぞれ1つづつ存在する
A,B間の独立性を課された変分ベイズ事後分布は第1〜第3に伸びることができないので、原点でピークをとるガウス分布のまま
V=2の時(右)
ベイズ事後分布のピークは互いに遠ざかって原点での確率値が小さくなる
変分事後分布はいずれか一方のピークを禁じすべく原点を離れる
Cacab→∞の時、閾値はγVB=1となる
7.2.3 経験変分ベイズ大域解
超パラメータk=(Ca,Cb,σ2)について経験変分ベイズ学習する場合について考える
ノイズ分散σ2が与えられた元で措置およびCBのみを推定する最小化問題を解く
Cah2およびCbh2によって偏微分して得られる停留条件
定理7.3
定理7.4
7.2.4 モデル選択性能の解析
補題7.3
アルゴリズム:行列分解モデルの大域経験変分ベイズ学習アルゴリズム
定理7.5
数値実験結果

7.3 混合ガウス分布モデルにおける変分ベイズ学習の漸近理論

はじめに
自由エネルギーの漸近形
K個の成分を全て使う場合
K*個の成分のみを使う場合

7.4 その他の理論結果

行列分解モデルによる非漸近理論およびガウス分布モデルによる漸近理論
行列分解モデルの大域的解析解をそのまま漸近理論に適用することで
変分ベイズ学習が持つ過学習抑制効果がベイズ学習のそれよりも強い傾向にある
類似の確率モデル
近似的大域解放の導出
加算的疎行列分解モデル(sparse additive matrix factorization model)
欠損値のある行列分解モデルのための効率的局所検索アルゴリズム
未知のパラメータおよび超パラメータのうち、どれをベイズ学習し、どれを(経験ベイズ学習により)点推定すべきか
確率的主成分分析として最初に行列分解モデルが提案された論文
部分ベイズ学習
自由エネルギーの漸近解析手法の適用
隠れマルコフモデル
混合指数分布族
ベイジアンネットワーク
潜在的ディリクレ配分モデル
パラメータの一部を周辺化してから変分ベイズ学習を行う