サマリー
トピックモデルとは、文書集合から潜在的なトピックを抽出し、文書の内容を理解するための確率的生成モデルとなる。トピックモデルを使うことである文書において、どのようなトピックが扱われているかを推定することができ、大規模なテキストデータ解析に適用すると、例えば大量のニュース記事やブログ記事などから、どのような話題が取り上げられているか、どのような傾向があるかを把握することができる。またトピックモデルは、テキスト分析だけでなく、音楽や画像、動画、バイオインフォマティクスなど多様な分野に応用される。
このトピックモデルのベースとなるモデルは”ユニグラムモデル“や”混合ユニグラムモデル“であり、これが拡張されて”Latent Dirichlet Allocation (LDA)“や”Probabilistic Latent Semantic Analysis (PLSA)”、また無次元への拡張として、”中華料理店過程(Chinese Restarant Process:CRP)“や”棒折過程(Stick Breaking Process:SBP)“、”階層ディリクレ過程(Hierarchical Direchlet Process:HDP)“等になる。
ここではこのトピックモデルに関して、「機械学習プロフェッショナルシリーズ トピックモデル」をベースに様々な理論(モデル)や応用にについて述べる。
今回は読後メモについて述べている。
機械学習プロフェッショナルシリーズ トピックモデル 読書メモ
第1章 確率の基礎
1.1 確率
1.1.1 確率と確率分布
1.1.2 同時確率
1.1.3 周辺化
1.1.4 ベイズの定理
1.1.5 独立
1.1.6 計算例
1.1.7 期待値
期待値
平均値(mean)
最頻値(mode)
分散(variance)
共分散(covariance)
1.1.8 カルバック・ライブラー・ダイバージェンス
1.1.9 連続確率変数
1.1.10 イェンゼンの不等式
図
1.1.11 ラグランジュの未定乗数法
確率モデルのパラメータを推定する時に使われる
制約付き最大化問題を解くことができる
I個の制約 gi(Φ)=0, i=1,…,I のもとで
関数f(Φ)をΦに関して最大化する問題
1.2 確率分布
1.2.1 ベルヌーイ分布
コイン投げ(2つの値x∈{0,1}をとる変数の確率分布
コインをN回投げるときは二項分布(binomial distribution)
1.2.2 カテゴリ分布
複数の離散値{1,2,…,V}から1つの値をとる変数の確率分布
例:サイコロ
上記をN回行ったものを多項分布(multinomial distribution)
1.2.3 ベータ分布
ベルヌーイ分布や二項分布のパラメータΦは、 0 ≤ Φ ≤ 1を満たす
このようなパラメータを生成するための分布
ここで
ベータ分布の特性
1.2.4 ディリクレ分布
カテゴリ分布やタコウブンプのパラメータΦの確率分布
ディリクレ分布の特性
第2章 ユニグラムモデル
2.1 文書表現
トピックモデルでは、 文書をその中に出現する単語の 「多重集合(バッグ、bag)」で表す
同じ語彙が2回現れても、2つの別々な単語として扱う
BOW(bag-of-words)
語順の情報はなくなる
処理
形態素解析
ストップワード除去
語彙を活用しない形に変換
本書で用いる記号
2.2 ユニグラムモデル
トピックモデルはBOW表現された文章集合を生成するための確率モデル
最も簡単な生成モデルである 「ユニグラムモデル(unigram model)」
全ての単語は ある一つのカテゴリ分布に従って生成される
Φ=(Φ1,…,ΦV)
Φvは単語vが出現する確率
ユニグラムモデルの文書集合の生成例
パラメータΦが与えられた時の文書集合Wの確率
説明
2.3 最尤推定
文書集合Wが与えられたときの、 ユニグラムモデルの未知パラメータΦを推定することが必要
確率モデルの基本的な推定方法である 「最尤推定」を利用する
尤度が最も高くなるようにパラメータを推定する
尤度はある確率モデルから 観測されたデータが生成される 最もらしさを表す
尤度は条件付き確率p(W|Φ)をΦの関数と見たものになる
確率モデルのパラメータをΦ
データをW
対数は単調増加関数であるため、 対数をとったとしても尤度が最大になるパラメータは変わらない
最大化すべき関数
微分して0となるポイントが最大値
最尤推定値
未知パラメータ数に比べて データ数が多い場合はうまくいくが、 データ数が少ない場合は問題が起こる
2.4 最大事後確率推定
データ数が少ないと過学習が起きる
最尤推定とMAP推定の違いの例
汎化するための手法
最大事後確率 (maximum a posteriori,MAP) 推定
データWを観測した後の パラメータΦの確率である事後確率が 最大となるパラメータを見つける
事後確率はベイズの定理を用いて計算
MAP推定では事前確率p(Φ|β)が必要
任意の確率分布を支えるが
共役事前分布(conjugate prior)を使うと計算が容易になる
共役事前分布
事後分布が事前分布と同じ形の分布になる事前分布
指数型分布族(exponential family)の場合、 共役事前分布が存在する
正規分布(normal distribution)
ポアソン分布(Poisson distribution)
カテゴリ分布
共役事前分布はディリクレ分布
多項分布
事前分布としてパラメータ(β,…,β)を持つディリクレ分布を事前分布とする
MAP推定における最適問題
ディリクレ分布を入れた式の変形
途中の式で最大化したいΦとは無関係な項を省く(2番目→3番目)
ラグランジェの未定乗数法により最大となるΦを求めると、 MAP推定は上式となる
観測がない語彙に対して 確率が負にならないようにするために
Β≥1とディリ稀分布のパラメータを設定する必要がある
β=2の場合はラプラススムージング(Laplace smoothing)と呼ばれる
例
事前分布のパラメータの値をβ=2とする
3の目を一回観測したときのMAP推定はΦ=(1/7,1/7,2/7,1/7,1/7,1/7)となる
最尤推定と比べて観測に極端に依存しない推定値となる
観測数が大きくなった場合の例
Nvがβに比べて大きなるため、最尤推定値とMAP推定値は近づく
2.5 ベイズ推定
最尤推定とMAP推定は、 それぞれの基準で最も良いパラメータ一つを求める
ベイズ推定(Bayesian estimation)では、 パラメータの分布を求める
分布を求めることにより、推定パラメータの確からしさが表現される
過学習の問題も緩和する
例:サイコロを用いたMAP推定の問題点
ディリクレ事前分布のパラメータの値をβ=2とする
サイコロを一回振ると3のメガでた場合(実験1)
MAP推定はΦ=(1/7,1/7,2/7,1/7,1/7,1/7)となる
64回サイコロを振って「3」が19回、「3」以外がそれぞれ9回(実験2)
MAP推定はΦ=(1/7,1/7,2/7,1/7,1/7,1/7)となる
ベイズの定理を用いた、 データWを観測した後のパラメータΦの事後分布の推定
ユニグラムモデルのパラメータの事後分布
一つ目の式はベイズの定理
3つ目の式はディリクレ分布の正規化項を用いる
事後分布も事前分布も同じディリクレ分布になる
実験1と実験2の事後分布
実験1ではp(Φ|W実験1)=Dirichlet(Φ|2,2,3,2,2,2)
実験2ではp(Φ|W実験2)=Dirichlet(Φ|11,11,21,11,11,11)
推定がより確からしくなる
生成モデルとベイズ推定の関係
確率モデルp(W|Φ)は
モデルパラメータΦが与えられたとき データWから生成される確率を規定
データWが与えられたときのモデルパラメータの確率p(Φ|W)
事後分布
MAP推定はパラメータ変換に対して不変ではない
ベイズ推定はパラメータ変換に対して不変
MAP推定値である事後確率が最も高いパラメータが、 事後分布の特徴を表していない例
面積が大きいが低い山と、面積は小さいが高い山
面積の99%を占める低い山ではなく、高い山がMAP推定値となる
2.6 ベイズ予測分布
推定したパラメータの分布を用いることにより、 推定のばらつきを考慮した予測が可能となる
文書集合Wが与えられたときの 単語ω*がvである分布のベイズ予測分布の計算
一つ目の式では、パラメータΦが与えられたときω*はデータWに依存しないことを用い パラメータΦに関して周辺化を行っている
4つ目の式ではディリクレ分布の正規化
5つ目の式ではガンマ関数の性質から式の簡略化を行っている
推定値のばらつきを考慮した結果が得られる
実験1のデータでは
実験2のデータでは
MAP推定や最尤推定ではディラックのδ関数を仮定しているとみなされる
MAP推定の値は観測データ数の違いは出ない
2.7 ハイパーパラメータ推定
MAP推定とベイズ推定では事前分布が必要なため
ハイパーパラメータ(hyperparameter)と呼ばれる、 事前分布のパラメータを設定する必要がある
例:ディリクレ分布のβ=2
データからハイパーパラメータを推定する方法
経験ベイズ推定 (empirical Bayesian estimation)
パラメータΦを周辺化した 周辺尤度(marginal likelihood) p(W|β)を 最大化するハイパーパラメータβを求める
ユニグラムモデルの場合の、周辺尤度の式は
この分布はポリヤ分布(Polya distribution)と呼ばれる
周辺尤度は「不動点反復法(fixed point iteration)」を用いて 上式の更新を収束するまで繰り返すことで、 ベータに関して最大化できる
ハイパーパラメータβの事前分布として ガンマ分布を仮定し
パラメータを周辺化したときの ハイパーパラメータの事後確率を最大化することにより 頑健なハイパーパラメータ推定が期待できる
不動点反復法における更新式
事後確率p(Φ|W,β)を最大化することでは、 ハイパーパラメータは推定できない
2.8 モデル選択
周辺尤度を用いて「モデル選択(model selection)」を行うことができる
モデル選択とは
複数のモデル候補の中から良いモデルを選ぶこと
モデルMが与えられたときのデータWの周辺尤度の計算
尤度p(W|Φ,M)と事前分布p(Φ|M)の積をパラメータΦに関して周辺化する
複数のモデルがあった場合、周辺尤度が最も高いモデルが良いモデルになる
別の手法
候補のモデルの集合M1,…,Mkに事前確率p(M1),…,p(Mk)が設定できる場合
ベイズの定理を用いて導出できる事後確立p(Mk|W)を最大にするモデルを選択することもできる
モデル選択の概念
モデルが複雑になれば観測データに対する尤度は高くなる
反面、複雑なモデルは過学習して汎化性がなくなる
オッカムの剃刀(Occam’s razor)
第3章 混合ユニグラムモデル
3.1 混合ユニグラムモデル
ユニグラムモデルでは、 全ての文書において 全ての単語が同じ分布から生成されると仮定
実際の文書では、文書によって語彙の使われ方が異なる
例
政治記事では「首相」「国会」「法案」
スポーツでは「勝利」「サッカー」「球場」
文書のトピックにより単語の分布は異なる
文書のトピックを表現するための生成モデル
混合ユニグラムモデル (mixture of unigram models)
トピックごとに異なった単語分布を持つ
トピックkの単語分布をΦk=(Φk1,…,ΦkV)とする
Φkv=p(v|Φk)は
トピックkに置いて語彙vが出現する確率
それぞれの文書は1つのトピックzd∈{1,…,K}を持つと仮定
単語はその文書のトピックの単語分布Φzdにしたがって生成されると仮定
具体的な生成過程
Θk=p(k|θ)は文書にトピックkず割り当てられる確率
θ=(θ1,…,θk)をトピック分布と呼ぶ
それぞれがディリクレ分布から生成されると仮定
混合ユニグラムモデルによる文書集合の生成例
単語分布が与えられたとき各単語は独立であることを用いる
3.2 混合モデル
複数の確率モデルのうちの一つのモデルから データが生成されると仮定するモデル
混合モデル(mixture model)
混合モデルの式
p(k)は混合比(mixture weight)
トピックkが選ばれる確率
混合ユニグラムモデルのθkに対応する
p(w|k)はトピックkが選ばれたときの 観測wが生成される確率を表す
混合ユニグラムモデルではp(w|k)はユニグラムモデル
代表的な混合モデル
複数の正規分布の混合である 「混合正規分布(mixture of noemal distribution)」
クラスタリング法である k平均法(k-,eams)を確率モデルに拡張したもの
混合モデルはデータを複数のグループに分割する クラスタリング(clustering)のためによく利用される
混合ユニグラムモデルでは、 文書のトピックxdがどのクラスタに属するかを表す インデックスになる
3.3 EMアルゴリズム
混合モデルのパラメータを最尤推定する方法
混合ユニグラムモデルの対数尤度の式は
ユニグラムモデルでは 対数尤度が最大となるパラメータは 解析的に求められた
混合モデルでは解析的に求められない
EMアルゴリズム(Expextation-Maximization) algorithm)を用いて最尤推定する
対数尤度の下限を最大化することで パラメータの局所最適を求めるもの
イエンゼンの不等式を用いた、対数尤度の下限Fの計算
式の変形
不等式ではlog(・)が上に凸な関数であることからイエンセンの不等式を用いる
イエンゼンの不等式を用いることにより、 ∑を対数logの外に出すことができ、 計算を容易にする
一つ目の式ではqdk/qdk=1をかける
qdkは文書dがトピックkに属する確率を表す
負担率(responsibility)と呼ばれる
負担率を固定したとき、 対数尤度の下限Fを最大にするパラメータを 解析的に解けるようになる
EMアルゴリズム
EステップとMステップを収束するまで 繰り返すことによりパラメータを推定
Eステップ
下限Fが最大となる負担率(q11,..,qDK)を上式で計算する
ラグランジュの未定乗数法を用いて導出できる
具体的には上式の極値を求める問題となる
qdkに関する微分は上式となる
∂F(qdk)/∂qdk = 0となる qdkを求めると
両辺でk=1からKまで和を取ると、1になることより
Mステップ
負担率が与えられた元で下限Fが最大になるように、 パラメータθ、Φを更新する
ラグランジュの未定乗数法を用いて導出できる
トピック分布θkは、全ての文書のトピックkの負担率の和に比例している
単語分布Φkvは、負担率に応じて重みをつけたトピックkでの語彙vの出現回数に比例する
混合ユニグラムモデルに対するアルゴリズム
1文書ごとに 負担率qdkの計算と トピック分布の更新θknew=θknew+qdkと 単語分布の更新Φkwdnnew=Φkwdnnew+qdk を行う
全ての文書の負担率を計算したのちに行うこともできるが
位置文書ごとの方が効率が良い
負担率qdkの意味
対数尤度Lと下限Fの差は上式のようになる
負担率qd(qd1,…,qdk)と トピック事後分布p(zd|wd,θ,Φ)の KLダイバージェンスになる
Eステップにおける下限Fの最大化は
負担率とトピックの事後分布のKLダイバージェンスの最小化と等価
負担率qdkは 文書dがトピックkに属する事後分布 p(k|wd,θΦ)の近似となる
3.4 変分ベイズ推定
3.4.1 周辺尤度の最大化
混合ユニグラムモデルのベイズ推定を考える
解析的に計算できないので、 「変分ベイズ推定(variational Bayesian estimation)」 による事後分布の近似を行う
変分ベイズ推定では、 周辺尤度を最大化する トピックおよびパラメータの事後分布の近似を求める
パラメータをまとめたものを𝚿={θ,Φ}とする
トピックの事後分布p(z|W)
Z=(z1,…,zD)はトピックの集合を表す
パラメータの事後分布p(𝚿|W)
対数周辺尤度の下限の計算式
二段目ではq(z,𝚿)/q(z,𝚿)=1をかける
三段目ではイェンゼンの不等式を用いる
対数周辺尤度の下限Fは 変分下限(variational lower bound)と呼ばれる
変分ベイズ推定では、 変分下限を最大化する事後分布の近似q(z,𝚿)を求める
q(z,𝚿)を変分事後分布とよぶ
変分ベイズ推定では計算を容易にするために、
事後分布q(z,𝚿)は トピックの変分事後分布q(z)と パラメータの変分事後分布の 積に分解できると仮定する
対数周辺尤度と変分下限の差を計算すると上式のようになる
対数周辺尤度logp(W)は、 変分事後関数q(z,𝚿)に関して定数であるため
変分下限Fを最大にするq(z,𝚿)は 真の事後分布p(z,𝚿|W)との KLダバージェンスが最小となる
変分ベイズ推定において変分下限を最大化することで
真の事後分布とのKLダイバージェンスが最小となる 近似事後分布が得られる
3.4.2 変分事後分布の推定
トピックの変分事後分布q(z)の推定
変分下限Fの最大化は、 ラグランジュの未定乗数法を用いると、 上式の極値を求める問題となる
F(q(z))のq(z)に関する変分は
𝔼q(x)[f(x)] = ∫ q(x)f(x)dx
分布q(x)を用いた場合のf(x)の期待値
左の式が0になる(最大)q(z)を解くと
パラメータの変分事後分布q(𝚿)の推定
制約 ∫q(𝛙)d𝛙=1の元での変分下限Fの最大化は ラグランジェの未定乗数法を用いると上式の極値を求める問題となる
F(q(𝛙))のq(𝛙)に関する変分は
右式が0になるq(𝛙)を解くと
混合ユニグラムモデルの、 生成過程より同時確率は上式のように分解できる
事後分布は上式のようになる
右の式のθに関する因子を取り出すと上式が得られる
ここで
同様にΦに関する因子を取り出すと
ここで
最終的なパラメータの変分事後分布は
混合ユニグラムモデルの場合のトピックの変分事後分布は上式のようになる
文書dのトピックがkであるの確率は上式になる
混合ユニグラムモデルにおける変分ベイズ推定アルゴリズム
EMアルゴリズムでは、
各文書のトピックは分布(負担率)qd=qd1,…,dK)として求めたが
パラメータθ、𝚽は点推定していた
変分ベイズ推定では、
トピックq(z)だけでなく、パラメータq(θ), q(Φ)も分布で推定する
観測変数W、主問題z=(z1,…,zK)を持つ 一般の確率モデルにおける変分事後確率分布は 上式で与えられる
𝔼q(z)[f(x)] = ∫ q(z)f(x)dzは
分布q(z)を用いた場合のf(x)の期待値を表す
q(z\k)=q(z1,…,zk-1,zk+1,…,ZK)は
zK以外の潜在変数の変分事後分布を表す
3.4.3 変分下限
変分事後分布を更新する際に変分下限が減少することはない
変分下限を計算することにより、アルゴリズムが適切に動作しているかを確認できる
周辺尤度の下限である変分下限は、モデル選択の基準としても利用できる
混合ユニグラムモデルの変分下限の式
第一項
第二項
第三項
第四項
続き
第五項
第六項
第七項
3.5 ギブスサンプリング
3.5.1 マルコフ連鎖モンテカルロ法
変分ベイズ推定では周辺尤度の下限を最大化することで、事後分布の近似を求めた
混合ユニグラムモデルをベイズ推定するための別の方法
ギブスサンプリング (Gibbs sampling)
マルコフ連鎖モンテカルロ法(Markov chain Monte Carlo, MCMC)の一種
近似ではなく、真の事後分布からサンプリングできる方法
原理的には 無限個の事例をサンプリングすることにより、 真の事後分布を求められる
例:分布p(z1,…,zD|W)を推定したいとき
ギブスサンプリングでは
変数zd以外の全ての変数が与えられたときの zdの条件付確率p(zd|z1,…,zd-1,zd+1,…zD,W) に従ってzdの値をサンプリングすることを 全ての変数d=1,…,Dに対して繰り返すことにより 目的の分布からの事例を得る
十分多くの事例が得られれば 目的の分布は上式の経験分布 (empirical distribution)で近似できる
Sはサンプリングした事例数
zd(s)はs版目にサンプリングした変数zdの事例
分布p(z1,…,zD|W)における関数f(z1,…,zD)の期待値の計算の近似
3.5.2 パラメータの周辺化
混合ユニグラムモデルにはz,θ,Φの3種類の未知変数がある
パラメータθ、Φは周辺化(積分消去)し、 トピック集合zの事後分布を推定する ギブスサンプリングについて述べる
パラメータを周辺化するギブスサンプリングは 崩壊型ギブスサンプリング(collapsed Gibbs sampling)と呼ばれる
パラメータを周辺化することにより、 サンプリングする変数の数を減らすことができ、 より効率的な推定が可能となる
パラメータθ、Φを周辺化したときの 文書集合Wとトピック集合zの同時分布は 上式となる
トピック集合zはαから(θを通して)生成される
Dkはトピックkが割り当てられた文書数
単語集合Wはzとβから(Φを通して)生成される
Nkvはトピックkが割り当てられた文書における語彙vの出現回数
Nkはトピックkが割り当てられた文書における総単語数
3.5.3 サンプリング式
ギブスサンプリングに必要な条件付確率は、 ベイズの定理を用いて上式のように計算できる
z\d=(z1,…,zd-1,zd+1,…,ZD)はZからzdのみ除いたトピックの集合
p(zd=k|z\d,α)は 式(3.24)とガンマ関数Γ(x+1)=xΓ(x)を 用いて上式のようになる
\dは文書dを除いたときの値
p(wd|W\d,zd=k,z\d,β)は 式(3.25)を用いて上式のようになる
混合ユニグラムモデルにおけるギブスさんプリングの式は
1つ目の因子はトピックkが割り当てられた文書数に比例していて 割り当てられた文書数が多いトピックになりやすくなっている
2つ目以降の因子は文書dがトピックkに割り当てられたときの尤度(ポヤリ分布)であり 文書dがトピックkに割り当てられた文書集合と似ているほど トピックkになりやすくなる
混合ユニグラムモデルのハイパーパラメータα、βは
不動点反復法を用いて 文書集合Wとトピック集合zの同時確率分布p(W,z|α,β)を 最大化することで推定できる
更新式
潜在変数zをサンプリングし、 データWとサンプリングした潜在変数zの 同時確率p(W,z|α)を パラメータαに関して最大化することを繰り返して モデルを推定する方法
確率的EMアルゴリズム (Stochastic EM algorithm)
通常のEMアルゴリズムでは
Eステップで潜在変数の帰属確率である負担率を計算
Mステップで負担率で期待値をとった同時確率を最大化する
確率的EMアルゴリズムでは
Eステップで潜在変数をサンプリングし
Mステップでサンプルした主問題を用いて期待値をとった同時確率を最大化する
混合ユニグラムモデルに対するギブスサンプリングアルゴリズム
文書にトピックを割り当てない状態(zd=0)から初めて
逐次的にトピックを割り当てていく
サンプリング確率は、 それまでトピックを割り当てた文書集合の情報のみを用いて 上式のように計算
<dは文書dより前の文書における集合や値
サンプリングされた一つのトピック集合zを用いて、 積分消去したパラメータθ、φは上式のように推定できる
EMアルゴリズム、変分ベイズ、ギブスサンプリングの推定の違い
第4章 トピックモデル
4.1 トピックモデル
混合ユニグラムモデルでは一つの一つの文書が一つのトピックを持つと仮定
文書集合全体で一つのトピック分布がある
トピックモデル(topic model)
一つの文書が複数のトピックを持つと仮定するモデル
文書ごとにトピック分布θd=(θd1,..,θdK)がある
θdk=p(k|θ)
文書dの集合にトピックが割り当てられる確率
トピック分布θdに従って文書dのそれぞれの単語にトピックzdnが割り当てられる
割り当てられたトピックの単語分布Φzdnに従って単語が生成される
トピックごとの単語分布Φ=(Φ1,…,ΦK)は、混合ユニグラムモデルと同じ
Φk=(Φk1,…,ΦkV)はトピックの単語分布を示す
Φkv=p(v|Φk)はトピックkで語彙vが生成される確率を表す
同じ文書に含まれる単語でも、 異なるトピックが割り当てられるので、 1つの文書が複数のトピックを持つことが可能となる
語彙ごとにトピックが割り当てられるのではなく、 単語ごとにトピックが割り当てせれる
同じ語彙でも別のトピックが割り当てられることもある
具体的な文書集合の生成過程
トピックモデルによる文書集合の生成例
トピック分布と単語分布集合Φが与えられたときの文書wdの確率
4.2 グラフィカルモデル
生成モデルを図示するためにグラフィカルモデル表現(graphical model representation)がよく使われる
ユニグラムモデル、 混合ユニグラムモデル、 トピックモデルのグラフィカルモデル表現
混合ユニグラムモデルでは
トピック分布θは文書集合に対して1つだけ
文書ごとに1つのトピックzがある
トピックモデルでは
トピック分布θが文書ごとにあり
トピックzは単語ごとにある
4.3 最尤推定
トピックモデルを最尤推定する手法
確率的潜在意味解析 (Probabilistic latent semantic analysis, PLSA)
トピックモデルの最尤推定では、EMアルゴリズムを使う
対数尤度(上式)を最大にするパラメータΘ=(θ1,…,θD),𝚽を求める
対数尤度の下限は、イェンゼンの不等式を用いて上式のように計算できる
Eステップ
下限Fを最大にする文書dのn番目の単語が トピックkになる負担率を上式のように求める
負担率qdnkは その文書のトピック分布θdkと その単語のトピックkでの出現確率Φkwdnに比例する
文書と語彙が同じ場合、その負担率は同じになる
Mステップ
下限Fを最大にするパラメータを求める
文書dのトピックの確率θdkは上式のように更新する
文書内の単語のトピックkに関する負担率の和に比例する
トピックkで語彙vが出る確率Φkvは上式のように更新する
∑はwdn=vであるnに関する和を表す
トピックkで語彙vが出る確率Φkvは、 全文書中における語彙vに関する負担率の和に比例する
上記の更新式はラグランジュの未定乗数法を用いて 製薬のもとで下限を最大化することにより得られる
トピックモデルに対するEMアルゴリズムの手順
4.4 変分ベイズ推定
トピックモデルをベイズ推定する手法
潜在ディリクレデータサイエンスモデル (Latent Dirichlet allocation, LDA)
4.4.1 周辺尤度の最大化
トピックモデルは変分ベイズ推定を用いて未知変数の事後分布を推定する
トピックモデルにおける未知変数は
トピック集合Z=(z11,…,z1N1,Z21,…,ZDND
トピック分布集合𝚯
単語分布集合𝚽
これらの事後分布の近似である変分事後分布q(Z,𝚯,𝚽)を求める
トピックモデルの対数周辺尤度は上式となる
変分下限Fをイェンゼンの不等式を用いて計算できる
計算を容易にするために 変分事後分布はq(Z,𝚯,𝚽)=q(Z)q(𝚯,𝚽)と分解できると仮定する
トピックモデルの生成過程より、 同時分布が上式のように分解できることを用いる
単語分布𝚽はパラメータβを持つディリクレ分布から生成される
トピック分布集合𝚯はパラメータαを持つディリクレ分布から生成される
トピック集合Zはトピック分布集合𝚯から生成される
単語集合Wはトピック集合Zと単語分布集合𝚽から生成される
4.4.2 変分事後分布の推定
変分下限Fを最大にする トピック分布の変分事後分布q(𝚯)を求めると上式のようになる
αdkはディリクレ分布である変分事後分布q(θd)のパラメータとなる
Qdnk≡q(zdn=k)を文書dのn番目の単語のトピックzdnがkとなる変分事後確率とした
単語分布の変分事後分布q(𝚽)は上式のようになる
βkvはディリクレ分布である変分事後分布q(𝚽k)のパラメータ
トピックの事後分布は
式を変形すると
I(・)は、Aが真であればI(A)=1、そうでなければI(A)=0となる指示関数を表す
トピックモデルに対する変分ベイズ推定
4.4.3 変分下限
トピックモデルの変分下限の変形
第一項は
続き
第二項は
続き
第三項は
第四項は
第五項は
第六項は
続き
第七項は
4.5 ギブスサンプリング
4.5.1 パラメータの周辺化
混合ユニグラムモデルと同様に
パラメータ𝚯,𝚽を積分消去し、 トピック集合Zの事後分布p(Z|W,α,β)を推定する
パラメータ𝚯,𝚽を積分消去した文書集合Wとトピック集合Zの同時分布は上式となる
一つ目の因子は、ディリクレ分布の正規化項を用いて
続き
Ndkは文書dでトピックkが割り当てられた単語数
Nd=∑Ndkは文書dの単語数を表す
二つ目の因子は
Nkvはトピックkに割り当てられた語彙vの単語数
Nk=∑Nkvはトピックkに割り当てられた単語数
4.5.2 サンプリング式
単語ごとにトピックをサンプリングしていく
文書dのn番目の単語のトピックサンプリングする確率
そのトピックを除いたトピック集合Z\dn=(z11,…,zd,n-1,zd,n+1,..,zDNd)と 文書集合Wが与えられた時の トピックzdnの条件付確率は上式になる
一つ目の因子は
続き
Ndk\dnは、 n番目の単語を除いたときの文書dで トピックkが割り当てられた単語数を表す
二つ目の因子は
最終的な計算式
一つ目の因子はn番目の単語を除いた文書dで トピックkが割り当てられた単語の数を表す
その文書で多く割り当てられているトピックになりやすい
二つ目の因子は語彙wdnがトピックkに割り当てられた和に比例
語彙wdnが文書集合で割り当てられているトピックになりやすい
このサンプリング確率は 割り当てられたトピックの回数を数えるだけで 計算できるとても簡単な色になっている
プログラムも容易に実装可能
トピックモデルの崩壊型ギブスサンプリングの例
ハイパーパラメータα,βは周辺同時尤度を最大化することにより推定できる
不動店反復法を用いた更新式
トピックモデルに対するギブスサンプリング
4.6 MAP推定,変分ベイズ推定,ギブスサンプリングの関係
トピックモデルの EMアルゴリズムを用いたMAP推定、 変分ベイズ推定、 ギブズサンプリング の関係について
4.7 潜在意味解析
潜在意味解析(latent semantic analysis, LSA)と確率的潜在意味解析(PLSA)の関係は
PLSAはLSAの拡張版
文書集合データが(DxV)の行列Nで表現される
Dは文書数
Vは語彙数
行列Nの要素(d,v)には、文書dに語彙vが出現した回数Ndvが入る
LSAでは
行列Nを2つの低ランク行列の積UTHに、 “フロベニウスノルムの概要とアルゴリズム及び実装例“で述べているフロべニウスノルム(Frobenius norm)が最小になるように 行列分解(matrix factorization)する
U=(u1,…,uD)は(KxD)の実数行列
UdはK次元ベクトル
H=(h1,…,hV)は(KxV)の実数行列
Hvはk次元ベクトル
∥・∥FROはフロべニウスノルムを表す
それぞれの要素を二乗して総和をとったものの平方根
上記の分解は”特異値分解(Singular Value Decomposition, SVD)の概要とアルゴリズム及び実装例について“で述べている特異値分解(singular value decomposition)を用いて得る
PLSAでは
潜在意味解析とトピックモデルの関係
4.8 評価尺度
確率モデルの性能を評価する尺度
テストデータに対するパープレキシティ(perplexity)
パープレキシティ
負の対数尤度から計算できる値
Testはテストデータであることを表す
Mは確率モデルを表す
パープレキシティは尤度の逆数の1単語あたりの幾何平均
平均して1/パープレキシティの割合で単語を予測できることを表す
全ての語彙が一様の確率で出現するモデルのパーブ歴史てぃは語彙Vになる
全ての単語を予測できるモデルのパープレキシティは1になる
低いパープレキシティはテストデータを高い精度で予測できる良い確率モデルであることを示す
それぞれのモデルの尤度
4.9 実験
日本語Wikiデータを用いたトピックモデルの実験
名詞5000語を語彙集合
単語数が100以上の文章集合からランダムに10000文書を選択
BOW表現された文書データを作成
10%の文書のうち50%の単語をテストデータ、それ以外を学習データとした
単語分布、トピック分布の事前分布として一様ディリクレ分布を用いる
ディリクレ事前分布のパラメータは不動点反復法でデータから推定する
トピックモデルと混合ユニグラムモデルの推定には崩壊型ギブスサンプリングを用いる
実験結果
対数同時尤度
ギブスサンプリングより対数尤度は上昇し、 500回あたりで高い値に落ち着く
パープレキシティ
トピックモデルは、 混合ユニグラム、ユニグラムモデルと比較して 低いパープレキシティ(より実際の文書に適したモデル)となる
トピックモデルにより抽出されたトピック例
出現率が高い順番で並ぶ
第5章 トピックモデルの拡張:他の情報も利用する
5.1 結合トピックモデル
文書に含まれる単語の情報以外の情報の付与
補助情報(side information)
例:商品のレビュー記事には、商品カテゴリや評点
学術論文には、著者や論文誌名、発行年
補助情報がついた文書集合の生成モデルを考える
文書dには、Md個の補助情報xd=(xd1,…,xdMd)
補助情報は分類カテゴリのような離散変数xdm∈{1,…,S}
補助情報がついて文書データのトピックモデル
結合トピックモデル (Joint topic model)
トピックごとに固有の補助情報分布がある
トピックに応じて補助情報が生成される
具体的なフロー
トピック分布θdに従って補助情報のトピックydmを決めた後
そのトピック補助情報分布𝛙ydmに従って、補助情報xdmを生成する
𝜳k=(𝜳k1,….,𝜳kS)
𝜳ks=p(s|𝜳k)はトピックがkのとき、補助情報sが生成される確率を表す
単語の生成は通常のトピックモデルと同じ
生成列
生成過程
文書dの単語集合wdと 補助情報集合xdの同時分布は上式となる
サンプリング確率
X=(x1,…,xD)は補助情報集合
Y=(y11,…,yDMd)は補助情報トピサック集合
Mdkは文書dにおいて補助情報トピックkが割り当てられた回数
Mksは補助情報sにトピックkが割り当てられた回数
Mkは補助情報にトピックkが割り当てられた回数
グラフィカルモデル
観測できる変数は単語wと補助情報x
zは単語トピック、θは単語トピック分布、Φは単語分布
yは補助情報トピック、𝛹は補助情報分布
Α、β、γはそれぞれθ、Φ、Ψを生成するディリまくれ分布のパラメータ
結合トピックモデルを使ってできること
部署カテゴリ予測
レビュー記事の評点の予測
単語情報から補助情報を予測
多言語文書集合の解析
日本語の文書に対して、エゴの文書を補助集合とみなして結合トピックモデルを適用
辞書を使うことなく日本語と英語の対応がついたトピックモデルを抽出できる
フロー
単語情報と補助情報が与えられている文書集合(学習データ)と、 単語情報のみが与えられている文書集合(テストデータ)を使って
結合トピックモデルを推定
推定したテストデータ内の文書の トピック分布θdと補助情報集合Ψを使って
文書dの補助情報がsである確率を上式で計算
この確率が最も高いsが予測値となる
5.2 対応トピックモデル
単語情報から補助情報を予測するタスク
結合トピックモデルでは、 トピック分布に従って単語と補助情報のトピックが それぞれ独立に選ばれる
同じ文書の中で、 単語のみで使われるトピックや 補助情報のみでせ使われるトピックが出てくる
単語と補助情報の関係を適切にモデル化できない
予測性能が低くなる
対応トピックモデル (Correspondence topic model)
単語を生成したトピックのみを使って補助情報を生成する
生成過程
単語生成は通常のトピックモデルと同じ
結合トピックモデルと同様にトピックごとの補助情報分布Ψ=(Ψ1,…,ΨK)を持つ
補助情報は、 その文書内の単語を生成した トピックの割合Ndk/Ndに応じて 補助トピックを割り当てた後
そのトピックydmの補助情報分布Ψydmから生成される
補助情報生成に用いられるトピックは 必ず単語を生成したトピックであるため
補助情報が適切に生成されるように単語のトピックが決められる
生成例
グラフィカルモデル
生成過程では 割り当てられた単語数に比例したパラメータを持つ K次元のカテゴリ分布で一つの単語トピックを決める
文書内にあるNd個の単語の中から一様ランダムに一つの単語を選び、 その単語のトピックを単語トピックとして選択する
対応トピックモデルにおける 文書dの単語集合wd、補助集合xdの同時分布
zd=(zd1,…,zdnd)は文章dのトピック集合
Ndk/Ndは単語トピックが与えられた時の補助情報とぴっくがkである確率
崩壊ギブスサンプリングにおける 単語トピックのサンプリング確率
結合トピックモデルでは 単語と補助情報のトピックの合計(Ndk\dn+Mdk+α)に 比例した確率になっていたが
単語にトピックがない場合でもトピックkが割り当てられる確率はある
対応トピックモデルでは、 単語と補助情報のトピックは同等には扱われない
(Ndk+Mdk\dm+α)に 比例した確率
単語にトピックkがない場合(Ndk=0)、 トピックkが割り当てられる確率は0になる
対応トピックモデルでは、 それぞれの補助情報は、 単語トピックから一つ選択肢、 そのトピック固有の補助情報分布から生成されると仮定
関連するモデル
教師ありトピックモデル (Supervised topic model)
単語トピックのベクトルから補助情報を回帰する
レン速変数の補助情報ydが正規分布で生成されると仮定
5.3 ノイズあり対応トピックモデル
内容(単語)に関係しないタグをつける場合
例
ソーシャルブックマークの「後で読む」タグ
主観的な評価を示す「これはすごい」タグ
写真に写っているものに関係なく「ニコン」や「キャノン」のようなカメラの機種のたぐ
ノイズあり対応トピックモデル (Noisy correspondence topic model)
対応トピックモデルの拡張
内容と補助情報が関係があるかないかを自動的に判定
補助情報予測の工場や、補助情報を利用した検索の精度向上が期待できる
生成列
ノイズあり対応トピックモデルは
トピックごとの補助情報分布Ψ1,…,𝚿Kに加えて
トピックには依存しない一般補助情報分布𝚿0を持つ
補助情報ごとに内容に関係があるかないかを 表す日の潜在変数rdm∈{0,1}をもつ
内容に関係があれば(rdm=1ならば)、 単語を生成したトピックの一つを使って補助情報が生成される
内容に関係ないならば(rdm=0ならば)、 単語トピックに関係することなく一般的補助情報分布から 補助情報が生成される
生成過程
グラフィカルモデル
関係性rを生成するベルヌーイ分布のパラメータλは、 共役事前分布であるベータ分布から生成する
ノイズあり対応トピックモデルにおける文書dの単語集合wd、 補助情報集合xdの同時分布は上式となる
続き
未知変数は
単語トピック集合Z
補助情報トピック集合Y
関係性集合R=(r11,…,rDNd)
未知変数の崩壊型ギブスサンプリングにおけるサンプリング確率は上式となる
M0(M1)は内容と関係ない(ある)補助情報の数
M0は内容と関係のない補助情報sの数
Mksは内容と関係があり、かつトピックが割り当てられた補助情報sの数
データ解析例
5.4 著者トピックモデル
補助情報に依存してトピックやトピック分布が生成されるモデル
結合トピックモデルでは逆で、 トピックに依存して補助情報が生成
例
著者情報がついた文書集合のためのトピックモデル (author topic model)
著者情報に依存してトピック分布が決められる
生成過程
著者トピックモデルにおける著者集合A=(a1,…,ad)が求められた時の文書集合W
ad=(ad1,….,adMd)は文書dの著者集合を表す
admは文書dのm番目の著者インデックス
Mdは文書dの著者数
Sを文書集合全体での著者総数とした時、adm∈{1,…,M)
それぞれの著者ごとに固有のトピック分布θsがある
フロー
各単語で、まずその文書の著者集合の中から一人の著者ydn∈{1,…,Md}を等確率で選ぶ
次に、選んだ著者のトピック分布θadynに従ってトピックzdnを選ぶ
最後に、選んだトピックの単語分布Φzdnに従って単語wdnを生成する
生成例
グラフィカルモデル
著者トピックモデルでは著者情報は与えられるものであり、生成できない
観測できる変数
著者情報a
単語w
Yは一人の著者
Zは単語トピック
Θは著者ごとのトピック分布
Φは単語分布
Α,βはそれぞれθ、Φを生成するディリクレ分布のパラメータ
トピックzdnと著者ydnを同時にサンプリングした時の、 条件付き確率は常識となる
Nadmkは著者admの単語にトピックkが割り当てられた回数
Nadmは著者admの単語数
著者sのトピック分布はサンプリングしたトピック集合を用いて上式となる
著者ごとのトピック分布の類似度を調べることで、著者の間の関係性がわかる
著者に限らない一般の補助情報を使ってトピック分布を決めるモデル
ディリクレ多項回帰モデル (Dirichlet-multinomial regression model)
補助情報に依存してトピック分布を生成する ディリクレ分布のパラメータが決定される
𝛈kは補助情報ベクトルxdと同じ大きさの実数値ベクトル
トピックkのための回帰パラメータ
5.5 トピック追跡モデル
文書のトピックを推定する上で、時間情報に注目
例
スポーツに関するブログ
ブログが扱う記事はその記事がいつ書かれたかによって大きく変わる
例:オリンピック期間中はオリンピック、W杯中はサッカー
ブログを書いている人の興味が変化する場合もある
例:昔は映画に興味があり、映画の記事を書いていた
時間変化するトピックを推定するためのトピックモデル
トピック追跡モデル (Topic tracking model)
例
ブログデータを想定
ブログだけではなく購買履歴も、 wtdをユーザーdが時刻tに購入した 商品集合と考えることにより、 同様に扱える
D人のユーザーが時刻t=1,…,Tの間に書いた 文書集合W1,…,WTをモデル化する
Wt=(wt1,…,wtD)は時刻tにおける文書集合
wtd=(wtd1,…,wtdNtd)は時刻tにおけるユーザーdの記事の単語集合
Ntdは時刻tにおけるユーザーdの記事の単語数
ユーザーの興味はトピック分布で表現する
興味は変化するため、 時刻ごとに異なるトピック分布θtdを持つ
変化はランダムで起きるのではなく、 多くの時刻においては多くは変化しない
平均が前の時刻のトピック分布の推定値θt-1,dの ディリクレ分布Ditechlet(θtd|αtdθt-q,d)から生成されるとする
パラメータαtdは分散の逆数である精度
どれくらい興味が変化しにくいかを表す
興味の一貫性
αtdが高い場合は興味はあまり変化しない
ユーザーごとのトピック分布と同様に、 トピックごとの単語分布も時間変化すると仮定
平均が前の時刻の単語分布の推定値Φt-1,kの ディリクレ分布Direchlet(Φtk|βtkΦt-1,k)から生成されるとする
パラメータβtkは単語分布の一貫性を表す
生成過程
グラフィカルモデル
ユーザーごとのトピック分布と トピックごとの単語分布の変化の例を示す
トピック追跡モデルにおけるユーザdの時刻tの単語集合wdの確率
ギブスサンプリングにおける確率は
トピックつい積モデルでは、 精度ハイパーパラメターαtdやβtkを推定することにより 過去情報を適切に利用できる
不動店反復法によりαtdやβtkを推定可能
上記までは、1時刻前のパラメータの改定値を使っていたが 過去の複数の時刻のパラメータの推定値に依存させることも可能
ブログデータからのトピック抽出例
トピック追跡モデルでは トピック分布が変化することを仮定
トピック分布は変化せず、 トピック分布の事前分布が変化するモデル
新聞記事や論文のように、 一つの文書がある一つの時刻に生成される データの解析に使われる
トピック追跡モデルは 一人のユーザーの書いた文書の 追跡に使われる
第6章 トピックモデルの拡張:トピックに構造を入れる
6.1 相関トピックモデル
トピック間に相関がある場合
例
新聞記事の政治と経済
相関トピックモデル(correlated topic model)にて トピック間の相関を扱うことが可能となる
通常のトピックモデルでは、 トピック分布はディリクレ分布から生成される
ディリクレ分布は相関をモデル化できない
相関トピックモデルでは正規分布を用いて生成
具体的なアプローチ
K次元実数ベクトル𝛈d=(𝛈d1,…,𝛈dk)を
平均μ=(μ1,…,μK)、共分散行列𝚺の正規分布 Normal(μ, 𝚺)から生成する
𝚺は大きさ(KxK)の行列
その要素δkk’がトピックkとk’の間の相関を規定する
正規分布から生成された𝛈dの要素は負の値を取り、 𝛈dの全要素を足しても1にはならない
実数ベクトル𝛈dを、 非負かつ総和が1という 確率としての条件を満たすものにするため、 指数を取り、正規化する
この変換関数は 「ソフトマックス関数(softmax function)」 と呼ばれる
実数ベクトル𝛈dを ソフトマックス関数によって トピック分布θdに変換
通常のトピックモデルと同様のアプローチ
相関トピックモデルの生成過程
グラフィカルモデル
相関トピックモデルにおける文書wdの分布
相関トピックモデルの変分ベイズ推定について
相関トピックモデルの対数周辺尤度の変分下限は
続き
H=(𝛈1,…,𝛈D)
池さんを簡単にするために変分事後分布は常識のようになると仮定する
下限Fを最大にする変分事後分布q(Z,H,Φ)を求めるEステップと
変分事後分布が与えられた元で下限Fを最大にするパラメータμ、𝚺を求めるMステップを収束するまで繰り返す
6.2 パチンコ配分モデル
相関トピックモデルでは、 共分散行列を用いて 2つのトピックの間の相関をモデル化
パチンコ配分モデル (Pachinko allocation model)
トピックに階層構造を導入することにより、 トピック間の関係をモデル化
パチンコ玉が落ちるときに、 上でどこの通るかに依存して 下のどこを通るかが決まる
例
上位トピックと下位トピックの 2階層のトピックを持つパチンコ配分モデル
下位トピック:「料理」「健康」「保険」「薬」
上位トピック:「料理・健康」「健康・保険・薬」
具体的なフロー
まず、 単語ごとに、 上位トピックθdを用いて 上位トピックydnを選ぶ
文書dの上位トピック分布は、θd(θd1,…,θdS)であり
Θdsは文書dで上位トピックsが選ばれる確率
Sは上位トピック数
次に、 その上位トピックに応じた 下位トピック分布θd,ydnを用いて 下位トピックzdnを選ぶ
下位トピック分布は文書ごとにS個あり
Θd=(θd1,…,θds)と表す
上位トピックに応じた下位トピック分布を用いることにより 同じ文書に現れやすい下位トピックをモデル化する
選んだ下位トピックzdnの単語分布Φzdn に従って語彙を決める
パチンコ分配モデルの生成過程
グラフィカルモデル
パラメータθd,Θd,Φが与えられた元での文書wdの確率は
パチンコ配分モデルは 崩壊型ギブスサンプリングで推定できる
上位トピックydnと下位トピックzdnを同時にサンプリングする
A=(α0,α1,…,αs)はトピック分布のディリクレ事前分布のパラメータ集合
Aがトピック間の関係をモデル化するため、データから推測する必要がある
不動点反復法で計算可能
続き
6.3 確率的潜在意味可視化
トピックモデルを用いて 文書やトピックを可視化するための トピックモデル
確率的潜在意味可視化 (Probabilistic latent semantic visualization, PLSV)
トピックの似ている文書が近くに配置されるように可視化
PLSVでは、 文書とトピックは可視化空間に座標を持っており、 その位置関係によってトピック分布が規定されると仮定する
文書dの可視化座標をrd=(rd1,…,rdC)
トピックkの可視化座標をsk=(sk1,…,sKC)とする
Cは可視化空間の次元すうで、通常2または3
文書dでトピックkが選ばれる確率を上式とする
S=(s1,…,sK)はトピック座標集合
文書dとトピックkのユークリッド距離の 二乗∥rd-sk∥2=∑(rdc-skc)2が小さければ、 文書dのトピックkの比率は高くなる
PLSVにおける可視化とトピック分布の関係
確率的潜在可視化の生成過程
グラフィカルモデル
文書座標rd、トピック座標集合S、単語分布集合Φが 与えられた時のPLSVにおけるwdの確率は上式となる
EMアルゴリズムを用いたMAP推定によりPLSVを推定する
第7章 文書以外のデータへの適用
7.1 画像
7.1.1 画像のBOW表現
画像データの解析へのトピックモデルの適用
画像情報は通常はBOW表現されていない
それぞれの画素はR˝Bの3次元の実数値
画像の局所特徴量としてSHIFT(scale invariant feature transformation)特徴量
それぞれの特徴点は128次元のベクトルで表される
ベクトル量子化(vector quantization)を 用いることでベクトルの集まりをBOW表現にできる
K-meansなどのクラスタリング手法を適用
ベクトル量子化後、トピックモデルへ適用
7.1.2 コーディネート推薦
画像データへの適用例
トピックモデルを用いた服のコーディネイト推薦
服のコーディネイトのBOW表現
具体的な手順
結合トピックモデルの適用が可能
7.2 ネットワーク
ネットワークデータの確率モデルへの応用
友人関係などのソーシャルネットワーク
論文の引用関係
Webページのリンク
食物連鎖
7.2.1 確率的ブロックモデル
ネットワークの代表的確率モデル
確率的ブロックモデル (Stochastic block model)
ネットワークのリンクの表現例
D個のノードを持つネットワークは (DxD)の接続行列Wで表現可能
Wの(d,d’)要素wdd’は
ノードdとd’にリンクがある場合wdd’=1
ノードdとd’にリンクがない場合wdd’=0
確率的ブロックモデルでは トピックkのノードとトピックk’の ノードがつながる確率はΦkk’であると仮定する
確率的ブロックモデルの生成過程
共役事前分布であるため、
カテゴリ分布のパラメータであるθはディリクレ分布から生成
ベルヌーイ分布のパラータであるリンク確率Φkk’はベータ分布から生成
それぞれのノードのトピックzdをパラメータθのカテゴリから生成した後 リンクwdd’をパラメータΦzdzd’のベルヌーイ分布から生成する
確率的ブロックモデルの例
確率的ブロックモデルにおける ネットワークWとトピック集合z=(z1,…,zD)の同時分布は 上式のようになる
θ=(θ1,…,θk)
Θkはノードがトピックkを持つ確率を表す
Φ=(Φ11,…,ΦKK)
共役事前分布を用いているため、 未知パラメータであるトピック分布θと リンク確率Φを積分消去できる
推定すべき未知変数はトピック集合zになる
トピック集合を推定するためのギブスサンプリングの式
B(x,y)=𝚪(x)𝚪(y)/𝚪(x+y)はベータ関数
Dkはトピッkが割り当てられたノード数
Dklはトピックkノードからトピックlノードへのリンクがあった数
Ḋklはトピックkノードからトピックlノードへのリンクがなかった数
Dkl:zd=kはzd=kとした時のDkl
7.2.2 混合メンバ確率的ブロックモデル
ソーシャルネットワークを考えると 様々なコミュニティ(トピック)での友人関係がある
ノードが一つのトピックモデルでの関係のみ持つ確率ブロックモデルでは この複数のトピックでの関係をモデル化できない
確率的ブロックモデルをノードが複数のトピックを持てるように拡張する
混合メンバ確率的ブロックモデル (Mixed membership stochastic block model)
それぞれのノードが固有のトピック分布θdを持つ
確率的ブロックモデルと同様に、トピック間でのリンク確率Φを持つ
ノードdからノードd’へのリンクwdd’の生成フロー
ノードdのトピック分布θdにしたがって一つのトピックzdd’1を選ぶ
同様に、ノードd’のトピック分布θd’にしたがってもう一つのトピックzdd’2を選ぶ
トピックzdd’1,zdd’2に対応したリンク確率Φzdd’1zdd’2に従って、リンクを生成する
混合メンバ確率的ブロックモデルの生成過程
ネットワークWとトピック集合Z=(z11,…,zDND)の同時分布は
ギブスサンプリングによる確率は
第8章 トピック数の推定
8.1 混合モデルのトピック数の推定
トピックモデルのトピック推定に用いる 階層ディリクレ過程は、 ディリクレ過程が元になっている
混合モデルのトピックすう推定を例にして、 ディリクレ過程について説明
8.1.1 ディリクレ過程
ディリクレ過程(Dirichlet process, DP)を用いることで 混合モデルのトピック数を推定できる
ディリクレ過程は
基底分布(base distribution)Hと 集中パラメータ(concentration parameter)α によって規定される 離散分布Gを生成する確率分布 G ~ DP(α, H)
基底分布は
生成される離散分布が 平均的にどのような分布になるかを決める
集中パラメータは
離散の程度を表す
α→0の極限では1つの値に確率が集中
αが大きくなるにつれてより多くの値に確率があり当てられる
例:基底分布ベータ分布の場合に ディリクレ過程によって生成される離散分布
集中パラメータが小さいと、少数の離散値にのみ大きな確率が割り当てられる
集中パラメータが大きいと、多数の離散値に確率が割り当てられる
基底分布に似た分布が生成される
ディリクレ過程を用いた無限個の要素モデルを持つ混合モデル
無限混合モデル (Infinite mixture model)
ディリクレ過程混合モデル (Dirichlet process mixture model)
基底分布としてディリクレ分布、 観測データ分布としてユニグラムモデルを使う
無限混合ユニグラムモデル
事前にトピック数を設定する必要がない データに適したトピック数を持つ混合ユニグラムモデルを推定できる
8.1.2 中華料理店過程
無限混合モデルには無次元の混合比と無限個の要素モデルがある
中華料理店過程(Chinese restaurant process,CRP)を用いることで、 有限個の混合比、要素モデルを扱うだけで推定が可能になる
無限混合モデルはCRPにより構成できる
CRPでは、d番目の文書トピックzdがkである確率は d-1番目までの文書のトピックz1,…,zd-1に依存し上式で与えられる
Dkはトピックkが割り当てられた文書数
αは集中パラメータ
この確率は文書の順番に依存せず、交換可能(exchangable)
これまでに文書が一つでも割り当てられているトピックkが選ばれる確率は トピックkに属している文書数Dkに依存する
テーブル(トピック)が無限個ある中華料理店に お客さん(文書)がテーブルにつく過程に例えられる
お客さんがあるテーブルにつく確率は、 すでにそのテーブルにいる人数Dkに比例する
新しいテーブルにつく確率はαに比例する
CRPを用いた無限混合ユニグラムモデルの生成過程
崩壊型ギブスサンプリングを用いてトピックを推定する場合
文書d以外のトピック集合z\d=(z1,…,zd-1,zd+1,…,zD)が与えられた時の 文書dのトピックxdの条件付き確率が必要になる
条件付き確率は上式になる
無限混合ユニグラムモデルに対するギブスサンプリングアルゴリズム
8.1.3 棒折り過程
CRP以外の無限混合モデルの構築
棒折り過程(stick breaking process)
無限個の要素を持つトピック分布 θ=(θ1,…,θ∞)を生成する生成過程
長さ1の棒を順におる過程
𝛎1をベータ分布Beta(1,α)により生成
棒を左から𝛎1の長さの位置で折り、 左側の部分の長さを一つ目の要素のθ1=𝛎1として採用する
右側には1-𝛎1が残る
残った棒をベータ分布(1,α)から生成した𝛎2の位置で再び折る
折った右側の部分の長さを二つ目の要素の値θ2=𝜈2(1-𝜈1)として用いる
棒を折る操作をk回繰り返したときに得られる棒の長さを第k要素の値θkとして用いる
無限解剖を折ることにより、無限個の要素を持つ総和が1のベクトルθが得られる
棒折り過程におけるベータ分布のパラメータαは、 ディリクレ過程の集中パラメータαに対応する
ベータ分布Beta(1,α)のαが小さい場合、 その出力は1に近い値となる
ある程度大きな確率を持つトピックが少数だけ生成される
Αが大きい場合、出力は0に近い値となる
小さな確率を持つトピックが多数生成される
棒折り過程を用いた無限混合モデルは、 変分ベイズ法を用いて推定可能
十分大きな数K*をトピックの上限として
𝛎K*=1、つまりθk=0とすることで
言う次元のトピック分布を用いて近似
ディリクレ過程はディリクレ分布の次元Kが無限大の極限に対応する
十分大きな次元数Kのディリクレ分布をトピック分布の事前分布として用いた 無限混合モデルの近似も考えられる
8.2 トピックモデルのトピック数の推定
8.2.1 階層ディリクレ過程
ディリクレ過程を用いることで混合モデルのトピック数を推定可能
トピックモデルはそれぞれの文書がトピック分布を持つ混合モデルになっている
文書ごとにディリクレ分布を基底分布として持つディリクレ過程を用いることで 文書ごとのトピック数は推定できる
ディリクレ分布は連続変数の分布であるため 異なる文書間で同じ単語分布が用いられることはない
トピックは共有されず、トピックモデルになせない
階層ディリクレ分布 (Hierarchical Dirichlet process, HDP)
文書間でのトピックの共有が可能となり
文書集合全体のトピック数および文書ごとのトピック数が推定できる
文書ごとのディリクレ過程の式
共通の基底分布Hをもち、 その規定分布はディリクレ過程から生成されたものと過程
ディリクレ過程により生成された分布Hは離散分布であるため
文書ごとのディリクレ分布から生成される分布Gdは、他の文書と値を共有できる
集中パラメータがγ=1、α=1、 共有分布の基底分布がベータ分布H0=Beta(2,2)の 階層ディリクレ過程から生成された
共有分布H
6つの個別分布Gd
共有分布を基底分布としてもつディリクレ分布から生成された個別分布は
共有分布で高い確率を持つ値のみに確率が割り当てられる
8.2.2 中華料理店フランチャイズ
階層ディリクレ過程は、 「中華料理店フランチャイズ (Chinese restaurantfranchise)」 で構成可能となる
メニューが共有されている中華料理店(文書)のフランチャイズを考える
それぞれのお店に無限個のテーブルがある
テーブルにはじめについたお客(単語)がメニューから料理(トピック)を選んで そのテーブルにつくお客は全て同じ料理になる
どのテーブルに着くかは、中華料理店過程と同様に そのテーブルについている人(単語)の数に比例する
どの料理(トピック)を選ぶかは その料理を選んでいるテーブルの数に比例する
中華料理フランチャイズの例
中華料理フランチャイズを過程したトピックモデルは
ギブスサンプリングを用いることにより トピック数を事前に決める必要なく推定できる
具体的には単語ごとのテーブルと テーブルごとのトピックの割り当てをサンプリングする
文書dのn番目の単語のテーブルlを選ぶ確率は上式となる
αは文書ごとのディリクレ過程の集中パラメータ
Γは文書集合全体のディリクレ過程の集中パラメータ
tdnは文書dのn番目の単語が割り当てられたテーブル
Zdlは文書dのl番目のテーブルが割り当てられたトピック
T=(t11,…,tDNd)は単語ごとのテーブルの集合
Zはテーブルごとのトピック割合の集合
Ndlは文書dでテーブルlを選んだ単語数
Mkはトピックkを選んだテーブル数
Mは総テーブル数
文書dのl番目のテーブルのトピックkを選ぶ確率は上式となる
8.2.3 事後確率表現
中華料理フランチャイズでは、テーブルとトピックをサンプリング
事後確率表現(posterior representation)では
トピックZ、トピック分布Θ、共有トピック分布πのサンプリングで 階層ディリクレ過程を推定
共有トピック分布は文書集合全体でのトピックの選ばれやすさを表す
付録A 代表的な確率分布
A.1 ベルヌーイ分布
A.2 カテゴリ分布
A.3 正規分布
A.4 多次元正規分布
続き
A.5 ポアソン分布
続き
A.6 指数分布
A.7 ガンマ分布
A.8 ウィッシャート分布
続き
A.9 ベータ分布
A.10 ディリクレ分布
続き
コメント
[…] 機械学習プロフェッショナルシリーズ トピックモデル 読書メモ […]
[…] 機械学習プロフェッショナルシリーズ トピックモデル 読書メモ […]