ベイズ推論とグラフィカルモデルによる機械学習

機械学習技術 人工知能技術 デジタルトランスフォーメーション技術 確率的生成モデル 本ブログのナビ

ベイズ推論とグラフィカルモデルによる機械学習

ベイズ推論を用いた機械学習は、確率の基本法則であるベイズの定理に従って観測データが与えられたときの未知変数に関する事後確率分布を計算し、得られた事後確率分布に基づいて、未知変数の推定量やこれから観測されるであろう新しいデータに対する予測分布などを計算する統計的学習手法となる。

ここで用いられるベイズ統計は、データだけではなく、データの背後にある要素も確率的に生成されるという考え方をベースとしたものになり、これは以前述べた「サイコロ(ある確率でデータを生成するもの)を製造する装置がある確率でゆらぎを持ってサイコロを製造する」という確率分布にメタ的な確率を適用したものイメージを持つと分かりやすい。

一般的な機械学習のベースとなる最尤推定や事後確率最大推定法との対比において、ベイズ学習は以下の特徴を持つ。

  • 未知変数の推定精度に関する情報が自然に得られる
  • 過学習しにくい傾向にある
  • 全ての未知変数を単一の枠組みで観測データから推定できる。これにより、モデルの自由度の自動洗濯や超パラメータ推定が可能になる。

このベイズ学習では、主に2つのステップにて学習が行われる。まずステップ1として、各種離散分布やガウス分布などの確率分布を組み合わせることにより、観測データと未観測の変数の関係性を確率分布として記述し、次のステップで構築したモデルに基づいて未観測の変数の条件付き分布 (事後分布)を解析的または近似的に求める。

ステップ1での確率分布を検討するためには確率モデルを考える必要がある。確率モデルの基本コンセプトは、不確実性を持った事象(確率変数)の間を関係性を示した辺で繋いでグラフにするもので、このような確率モデルをグラフを用いて記述したものがグラフィカルモデルと呼ばれるものとなる。グラフィカルモデルには大きく分けて、ベイジアンネットワーク(有向)とマルコフ確率場(無向)の二つがある。簡単に言うと前者は確率的な因果関係で、後者は確率的な依存関係を示すものとなる。

次にステップ2での未観測の変数の条件付き分布 (事後分布)を解析的または近似的に求めるためには、まず未知変数に対する期待値計算を行う必要がある。この計算は特別な場合を除いて解析的に実行することができず、また未知変数が高次元である場合には数値計算も困難となる。マルコフ連鎖モンテカルロ法(MCMC)や変分ベイズ学習は、これを計算するための近似法となる。

以下にそれらベイズ推論を用いた機械学習についての詳細を述べる。

実装

不確実性(Uncertainty)とは、将来の出来事や結果が予測しにくい、不明確な状態や情報のことを指し、我々が持つ知識や情報の限界によって引き起こされるものであり、完全な情報や確信を持つことが難しい状態を表す。不確実性を取り扱うために、確率論や統計学などの数学的手法やモデルが使われる。これらの手法は、不確実性を数値化したり、リスクを最小化したりするために重要なツールとなる。

ここではこの不確実性を扱う為の確率理論と様々な実装について述べている。

ベイズ推定は、確率論的なフレームワークに基づいた統計的推論の手法の一つであり、不確実性を取り扱う機械学習技術となる。ベイズ推定の目的は、データと事前知識(事前分布)を組み合わせて、未知のパラメータの確率分布を推定することとなる。ここでは、このベイズ推定に関する概要と応用事例および各種実装について述べている。

  • ベイジアンネットワークの推論アルゴリズムについて

ベイジアンネットワークの推論は、ベイズの定理に基づいて事後分布を求める過程であり、主要な推論アルゴリズムにはいくつかの種類がある。以下に代表的なベイジアンネットワークの推論アルゴリズムについて述べる。

  • ベイジアン多変量統計モデリングの概要とアルゴリズム及び実装例について

ベイジアン多変量統計モデリングは、ベイジアン統計学の枠組みを使用して、複数の変数(多変量)を同時にモデル化する手法であり、この手法は、観測データに対する確率的な構造を捉え、不確実性を考慮することができるものとなる。多変量統計モデリングは、データの相関や共分散構造、異常値の検出などの問題に対処するために利用されている。

マルコフ連鎖モンテカルロ法(Markov Chain Monte Carlo, MCMC)は、確率分布からのサンプリングや積分計算を行うための統計的手法となる。MCMCは、マルコフ連鎖(Markov Chain)とモンテカルロ法(Monte Carlo)の組み合わせとなる。ここでは、このMCMCに対して、様々なアルゴリズムと適用事例および実装例について述べている。

  • NUTSの概要とアルゴリズム及び実装例について

NUTS(No-U-Turn Sampler)は、”確率積分計算の為のMCMC法:メトロポリス法以外のアルゴリズム(HMC法)“でも述べているハミルトニアンモンテカルロ法(HMC)の一種であり、確率分布からのサンプリングを行うための効率的なアルゴリズムとなる。HMCは、物理学のハミルトニアン力学をベースにしており、マルコフ連鎖モンテカルロ法の一種で、NUTSは、HMCの手法を改良して、自動的に適切なステップサイズやサンプリング方向を選択することで、効率的なサンプリングを実現している。

EMアルゴリズム(Expectation-Maximization Algorithm)は、統計的推定や機械学習の分野で広く用いられる反復最適化アルゴリズムとなる。特に、未観測の潜在変数(latent variable)が存在する確率モデルのパラメータ推定によく用いられている。

ここではこのEMアルゴリズムの概要と、混合モデル、HMM、欠損値推定、レーティング予測にそれぞれEMアルゴリズムを適用した時のフローとpythonによる実装例について述べる。

EM(Expectation Maximization)アルゴリズムは、制約充足問題(Constraint Satisfaction Problem)の解法として使用することもできる手法となる。このアプローチは、欠損データや非完全データのような不完全な情報がある場合に特に有用となる。ここではこのEMアルゴリズムを用いた制約充足問題に関して、様々な適用事例とpythonによる実装について述べている。

変分法(Variational Methods)は、関数や確率分布の中で最適解を求めるために用いられ、機械学習や統計学などで広く使われる最適化手法の一つであり、特に、確率的生成モデルや変分自己符号化器(Variational Autoencoder, VAE)などの機械学習モデルにおいて重要な役割を果たしている手法となる。

変分ベイズ学習(Variational Bayesian Inference)は、ベイズ統計学における確率的モデリングの手法の一つであり、事後分布を解析的に求めることが難しい場合や計算コストが高い場合に利用されるものとなる。

ここでは、この変分ベイズ学習の様々なアルゴリズムの概要と、トピックモデル、ベイズ回帰、混合モデル、ベイズニューラルネットワークでのpythonの実装について述べている。

HMMは、確率的なモデルの一種であり、一連の観測データを生成するプロセスを表現するために使用され、特に、系列データや時系列データのモデリングに広く利用されているものとなる。HMMは「隠れた状態(hidden state)」と「観測結果(observation)」という2つの要素から構成され、隠れた状態は、直接は観測されず、系列データの背後にある潜在的な状態を表し、観測結果は、直接的に観測できるデータであり、隠れた状態から生成される。

ここでは、このHMMに関して、各種アルゴリズムと実用例およびpythonによる具体的な実装例について述べている。

Gelman-Rubin統計量(またはGelman-Rubin診断、Gelman-Rubin統計テスト)は、マルコフ連鎖モンテカルロ(MCMC)サンプリング法の収束診断のための統計的手法で、特に、MCMCサンプリングが複数のチェーンで行われる場合に、各チェーンが同じ分布からサンプリングされているかどうかを評価するために使用されるものとなる。この手法は、ベイズ統計学の文脈でよく利用されている。具体的には、Gelman-Rubin統計量は複数のMCMCチェーンから得られるサンプルの変動と各チェーン内の変動の比率を評価し、統計的な収束が達成されている場合、この比率は1に近くなる。

  • フィッシャー情報行列の概要と関連アルゴリズム及び実装例について

フィッシャー情報行列(Fisher information matrix)は、統計学と情報理論の分野で使用される概念であり、確率分布に関する情報を提供する行列となる。この行列は、統計モデルのパラメータに関する情報や精度を評価するために使用されており、具体的には、確率密度関数(または確率質量関数)をパラメータについて微分したものの期待値に関する情報を含んでいる。

ベイズ構造時系列モデル(Bayesian Structural Time Series Model; BSTS)は、時間とともに変化する現象をモデル化する統計モデルの一種であり、予測や因果推論を目的として利用されるものとなる。ここではこのBSTSに関しての概要と様々な応用事例及び実装例について述べている

ベイズ深層学習は、ベイズ統計学の原則を深層学習に組み込む試みを指す。通常の深層学習では、モデルのパラメータは確率的でない値として扱われ、最適なパラメータを求めるために最適化アルゴリズムが使用されるが、ベイズ深層学習では、これらのパラメータ自体を確率分布として扱い、不確かさを考慮に入れてモデルを学習および推論することを目指すものとなる。不確かさの機械学習への適用に関しては”不確実性と機械学習技術“や”統計的学習理論の概要(数式を使わない解説)“を参照のこと。

  • Black-Box Variational Inference (BBVI)の概要とアルゴリズム及び実装例について

Black-Box Variational Inference (BBVI)は、確率的プログラミングやベイジアン統計モデリングにおいて、複雑な確率モデルの事後分布を近似するための変分推論法の一種であり、変分推論は、事後分布を解析的に解くことが難しい場合に、近似的な手法を使って推論を行うものとなる。BBVIは”Black-Box”と呼ばれるのは、推論対象の確率モデルがブラックボックスとして扱われ、モデル自体の内部構造や尤度関数の形に依存せずに適用できるためであり、BBVIはモデルを確率分布の黒い箱(Black Box)として捉え、その内部構造を知らなくても推論が可能な手法と言える。

  • 制約ベースの構造学習の概要とアルゴリズム及び実装例について

制約ベースの構造学習は、グラフィカルモデル(ベイジアンネットワークやマルコフランダムフィールドなど)において、特定の構造制約を導入してモデルの学習を行う手法であり、これにより、事前の知識やドメイン知識をモデルに組み込むことができるアプローチとなる。

  • BIC、BDe等のスコアベースの構造学習について

BIC(ベイズ情報規準)やBDe(ベイジアン情報規準)などのスコアベースの構造学習手法は、統計モデルの複雑性とデータの適合度を組み合わせてモデルの良さを評価し、最適なモデル構造を選択するために使用されるものとなる。これらの手法は主にベイジアン統計学に基づいており、モデル選択のための情報規準として広く利用されている。

  • ベイジアンネットワークのサンプリング(Sampling)について

ベイジアンネットワークのサンプリングは、事後分布からのランダムサンプル生成を通じて、未知の変数やパラメータの確率的な挙動をモデル化するもので、サンプリングは、ベイズ統計学や確率的プログラミングにおいて重要な手法であり、ベイジアンネットワークの事後分布の推定や不確実性の評価に利用される手法となる。

  • 動的ベイジアンネットワークの変分ベイズ法による解析

動的ベイジアンネットワーク(DBN)は、時間の経過とともに変化する不確かさをモデリングするためのベイジアンネットワークの一種となる。変分ベイズ法は、複雑な確率的モデルの推論を行うための統計的手法の一つであり、不確かな情報に基づいて事後分布を推定することが可能な手法となる。

  • オートエンコーダ変分ベイズ (Variational Autoencoder, VAE)の概要とアルゴリズム及び実装例について

オートエンコーダ変分ベイズ(Variational Autoencoder, VAE)は、生成モデルの一種であり、データの潜在表現を学習するためのニューラルネットワークアーキテクチャであり、VAEは、データの確率分布をモデル化し、その中からサンプリングすることによって、潜在表現を学習するものとなる。以下にVAEの概要について述べる。

理論と応用

確率的生成モデルでの推論で用いられるベイズ学習(Bayesian machine learning)の概要について述べる。まず、ベイズ学習では2つのステップで学習が行われる。まずステップ1として、各種離散分布やガウス分布などの確率分布を組み合わせることにより、観測データDと未観測の変数Xの関係性(同時分布p(D,X))を記述する。そして次のステップで構築したモデルに基づいて未観測の変数の条件付き分布 (事後分布 \(\displaystyle p(X|D)=\frac{p(D,X)}{p(D)}\))を解析的または近似的に求める。ここで分母の項p(D)はモデルエビデンス(model evidence)あるいは周辺尤度(matginal likelihood)と呼ばれるもので、モデルからデータDが出現する尤もらしさを表す。条件付き確率p(X|D)は離散分布になることもあるし連続分布になることもある。

確率分布の共役性を利用した多項式回帰は、パラメータの事後分布や未観測の値に対する予測分布を解析的に求めることのできるモデルとなる。しかし機械学習では、画像や自然言語などの応用分野に代表されるように、複雑な統計的性質をもつデータを解析の対象にすることが多く、それに応じた複雑な確率モデルを組み立てる必要性が出てくる。こういったモデルに対しては、解析的に事後分布や予測分布を計算することは非常に困難となる。今回は、そのような複雑なモデルの例として混合モデルについて述べる。

近似推論(approximate inference)を行うアルゴリズムはこれまでに非常に多くのものが提案されてきている。ここではその中でも比較的シンプルで広く利用されているギブスサンプリングおよび平均場近似による変分推論について述べる。ベイズ学習ではデータを表現するモデルと対応する近似推論手法の組み合わせで全体として一つのアルゴリズムが構成される。扱うモデルやデータのサイズ、要求される計算コストやアプリケーションによって最適な近似推論手法の選び方が異なってくるため、複数の手法を武器としてもっておくことはより良い性能を追求する上で役にたつ。

今回は、1次元データに対するポアソン混合モデル(Poisson mixture model)を導入し、実際に事後分布を推論するためのアルゴリズムについて述べる。ポアソン混合モデルについて述べる理由は、ガウス混合モデルと比べて各種の技法(ギブスサンプリング、変分推論、崩壊型ギブスサンプリング)が比較的簡単に導けるからである。また事後分布や予測分布の解析的計算の応用事例にもなっている。さらに後述でポアソン分布の非負性を利用した発展的なポアソン分布の非負性を利用した発展的なモデルとして非負値行列因子分解(nonnegative matrix factorization)について述べるが、そこでもポアソン分布やガンマ分布を使った似たような計算が登場する。

今回は、ポアソン混合分布に対する変分推論アルゴリズムについて述べる。変分推論アルゴリズムの更新式を得るためには、事後分布に対する分解近似の過程をおく必要がある。ここでは次のように、潜在変数とパラメータを分けることによって、事後分布を近似することを目指す。

今回はポアソン混合モデルに対する崩壊型ギブスサンプリングのアルゴリズムについて述べる。通常、混合モデルにおける崩壊型ギブスサンプリングでは、まず同時分布からパラメータを周辺化除去することを考える。さらに、ギブスサンプリング、変分推論、崩壊型ギブスサンプリングでの推論結果を比較する。

今回は観測モデルとして、平均及び精度行列が道である多次元のガウス分布を考え、事後分布の基盤技術アルゴリズムとしてギブスサンプリング、変分推論、崩壊型ギブスサンプリングを導出する。共役性から、多次元ガウス分布に対するパラメータの事前分布としてガウス・ウィシャート分布わ用いることにする。先ほどのポアソン混合モデルと比べて、多次元であることや手計算が少しややこしいガウス・ウィシャート用いることなどいくつかの点で複雑になるが、導出までの道筋は”ベイズ推論による機械学習の例:ポアソン混合モデルのギブスサンプリングによる推論”や”ベイズ推論による機械学習の例:ポアソン混合モデルの変分法による推論”、”ベイズ推論による機械学習の例:ポアソン混合モデルの崩壊型ギブスサンプリングによる推論”とほぼ同じとなる。

ガウス混合モデルに対する変分推論でも、以下のように潜在変数とパラメータを分けて近似すると、計算効率のよいアルゴリズムが導ける。ここでは、ガウス混合モデルに対する崩壊型ギブスサンプリングのアルゴリズムについて述べる。ここでも、ガウス混合モデルからすべてのパラメータμ,Λおよびπを周辺除去したモデルを考えることにする。下図は、N=200個の2次元の観測データK=3としたガウス混合モデルとしてクラスタリングした結果を示している。

線形次元削減(linear dimensionality reduction)は、多次元のデータを低次元の空間に写像することにより、データ量の削減や特徴パターンの抽出、データの要約・可視化などを行う基本的な技術となる。実際に、多くの実データにおいて、観測データの次元数Dよりもはるかに小さい次元数Mの空間でデータの主要な傾向を十分表現できることが経験的にしられているため、機械学習の分野に限らず次元削減のアイデアはさまざまな応用分野で発展・活用されてきた。

これから述べる方法は、確率的主成分分析(probabilistic principal component analysis)や因子分析(factor analysis)、あるいは確率的行列分解(probabilistic matrix factorization)と呼ばれる技術と深く関連しているが、ここでは一般的に使われる手法よりももっと単純化した簡素なモデルを題材にする。

また、ここでは具体的な応用として、線型次元削減モデルを利用した画像データの圧縮や欠損値の補間処理などの簡易実験も行う。次元削減や欠損値補間の考え方は、非負値行列因子分解やテンソル分解といったモデルにも共通している。

非負値行列因子分解(nonnegative matrix factorization,NMF)は線形次元削減と同様、データを低次元部分空間に写像する手法となる。名前が示す通り、このモデルでは観測データとその未観測変数全てに対して非負性を仮定する。非負値行列因子分解は負の値をもたないあらゆるデータに適用が可能で、線形次元削減で行ったような画像データの圧縮や補間も同様に実現できる。

また音声データを高速フーリエ変換して周波数で取り扱う場合は、このような非負性を仮定できるモデルを使ったほうがよい表現が得られることが多い。そのほかにも推薦アルゴリズムや自然言語処理に関しても負の値をもたないと仮定できるデータが多い為、幅広い応用が試みられている。非負値行列因子分解には様々な確率モデルによる表現が提案されているが、ここではポアソン分布とガンマ分布を使ってモデルを構築する。

今回は、時系列データに対するモデリングとして広く利用されている隠れマルコフモデル(hidden Markov model,HMM)について述べる。隠れマルコフモデルは伝統的な音声信号や文字列データだけではなく、塩基配列や金融取引のデータなどにも実応用が指針でいる非常に重要なモデルとなる。これまで述べてきたモデルでは以下の式で示されるようにパラメータθが与えられたあとの各パラメータX={x1,….xN}の分布に対して条件付き独立性が成り立っていた。

“ベイズ推論のモデル構築と推論-隠れマルコフモデルの概要とモデル”で構築したポアソン観測モデルによる隠れマルコフモデルに対して、変分推論による事後分布の近似アルゴリズムを求める。隠れマルコフモデルはシンプルに混合モデルの潜在変数に関わる部分に時間依存を入れただけなので、同じ発想でパラメータと潜在変数に分解して近似推論するのが良いと考えられる。しかし、今回のモデルでは常態系列の取り扱いが複雑なので、簡単のため、以下のようにさらに時間方向もバラバラに分解して推論を行う。

前回は時間方向に関する完全な分解を仮定することによって、比較的容易に隠れマルコフモデルのための変分推論アルゴリズムを導出した。実際のところ、状態系列の推論ではこのような時間奉公の分解は仮定する必要がなく、混合モデルの場合と同様に、以下のようなパラメータと潜在変数の分解のみを仮定するだけで効率の良いアルゴリズムが導き出せることが知られている。

トピックモデル(topic model)は主に自然言語で書かれた文書を解析するための生成モデルの総称であり、ここではその最もシンプルな例としてLatent Dirichlet allocation(LDA)について述べる。LDAでは、単語の羅列である文書に対して潜在的なトピック(政治、スポーツ、音楽など)が背後に存在していると考え、そのトピックに基づいて文書中の各単語が生成されていると仮定する。大量の文書データを使って学習されたトピックを利用することにより、ニュース記事の分類や推薦を行ったり、与えられた単語のクエリから意味的に関連の深い文書を検索することができるようになる。また近年ではLDAを自然言語処理だけではなく画像や遺伝子データに適用するような事例もある。

ここでLDAに対する崩壊型ギブスサンプリングについて述べる。混合モデルでは、確率モデルからパラメータを周辺化した新たなモデルを考え、潜在変数を一つずつサンプリングするという手法をとった。LDAにおいても全く同様の手続きでアルゴリズムを導くことができる。

ここでは、主にアイテム(本や映画、レストランなど)の推薦システム(recommender system)などの応用でよく使われるインソル分解(tensor factorization)について述べる。機械学習の分野では、テンソル分解は単純にRn,m,kのような多次元配列のことを指す場合が多く、2次元配列である行列の多次元番として扱われる。ここでははじめに、行列分解を使った場合の協調フィルタリング(collaborative filtering)のアイデアについて述べ、さらにそれをテンソルの場合に拡張し、推薦アルゴリズムを導出する。ここで述べるアイデアは遷移行列削減のモデルとも関連が深い。

ここでは、入力変数xから離散のラベルデータyを直接学習するようなモデルであるロジスティック回帰(logistic regression)について述べる。線形回帰モデルの混合ガウス分布による予測により、パラメータの事後分布や新規データに対する予測分布が厳密に計算できる。ロジスティック回帰は線形回帰と異なり、内部に非線形な変数変換が含まれているために、このような解析計算が行えない。

ここでは変分推論の使い方として、線形次元削減やLDAで用いた事後分布の分解による平均場近似のアプローチではなく、ガウス分布による事後分布の近似と購買情報を利用した最適化のアプローチについて述べる。このテクニックは後述するニューラルネットワークの学習のケースにおいてもまったく同じものが使える。

ニューラルネットワークは線形回帰やロジスティック回帰と同様に、入力xから予測値yを直接推定する確率モデルとなる。ここでは、二ューラルネットワークを用いた連続値の回帰アルゴリズムについて述べる。ニューラルネットワークは線形回帰のモデルとは異なり、xからyを予測するための非線形関数をデータから学習できるのが大きな特徴となる。

ここではこれまで述べてきた多くのモデルと同様、ニューラルネットワークを完全にベイズ的に扱うことにし、学習や予測をすべて確率的な(近似)推論で解く。これは最尤推定やMAP推定により得られる一般的なニューラルネットワークと比べて、過剰適合を自然に抑制できたり、予測の不確かさや自信の度合いを定量的に取り扱えるという利点がある。

グラフィカルモデルとは確率モデルをグラフを用いて記述したものとなる。確率モデルは、機械学習の中で扱う事象に、「不確実性」を導入したものでそれらは本質的に揺らぐものもあり、また単純に情報が不足している為に起こるものもある。

グラフィカルモデルには大きく分けて、ベイジアンネットワーク(有向)とマルコフ確率場(無向)の二つがある。簡単に言うと前者は確率的な因果関係で、後者は確率的な依存関係を示すものとなる。

まずベイジアンモデルについて、例として人間の血液型の遺伝子発現のケースについて述べる。人間の血液型はA,B,Oの種類の遺伝子のペアより決まる。すなわちAA,AO,BB,BO,AB,OOの7種類がある。ここてせ単純化のためBがない世界(AA,AO,OOの3種類)を考える。

ベイジアンネットワークは、ある確率変数が別の各確率変数について決める確率場であったが、マルコフ確率場では其々の確率変数が相互に関係し合っているモデルとなる。

マルコフ確率モデルの最もシンプルなものはイジングモデル(Ising model)と呼ばれるものとなる。これは物理の世界で磁性体についてのモデルとして用いられているもので、格子状にスピンと呼ばれる±の値を取る量があり(スピンが上を向いているものが+1、下を向いているものが-1)、以下に示すようなものとなる。

ベイジアンネットワークとマルコフ確率場の確率分布関数は、局所的な関数の積で表されている。今回はより直接的に関数の積表現をグラフ表現する方法について述べる。

ベイジアンネットワークとマルコフ確率場の確率分布関数は、局所的な関数の積であらわすことができる。ここでは、このような積表示を用いて直接的に図示する、因果グラフ表現について述べる。この方法では、ベイジアンネットワークもマルコフ確立場も超グラフによって表現される。超グラフは無向グラフの拡張なので、ベイジアンネットワークの矢印の情報は失われる。一方、マルコフ確率場のグラフ表現よりも詳細な構造を記述できる。

ここではベイジアンネットワーク、マルコフ確率場、因子グラフ型モデルのようにグラフ構造に対応した積表示を持つ確率分布関数(族)を総称してグラフィカルモデル(graphical model)と呼ぶ。

今回は、グラフィカルモデルの周辺確率分布を計算するタスクについて述べる。これは確率理論とも呼ばれる。アプローチとしてはグラフが木である場合の効率的計算法としての確率伝搬法について述べる。内容としては、確率伝搬法の概要について述べ、次に シンプルな系での確率伝搬法、一般化された確率伝搬法、因子グラフに拡張した確率伝搬法について述べ、最後に隠れマルコフモデルに適用した例について述べる。

ここでは、木以外の場合にも確率伝搬法のアルゴリズムを適用し、近似的に周辺確率分布を計算する。これは、変分法の観点からはベーテ近似として理解できる。

前述では、木の上での確率伝搬法のアルゴリズムについて述べた。これは。周辺確率分布をメッセージ伝搬を用いて効率的に計算するものとなる。サイクルのあるグラフ上でも、アルゴリズム1のように同様のアルゴリズムを適用する事により、近似計算を行う事ができる。

前述では、ベーテ自由エネルギー関数から確率伝搬法が導出されることについて述べた。今回は、ベーテ自由エネルギーの一般化である菊池自由エネルギー関数から、一般化確率伝搬法を導出する。

確率伝搬法の拡張が必要になる動機づけとして、小さいサイクルがたくさんある、確率伝搬法では近似誤差が大きくなってしまうケースで、このサイクルを含むような、もう少し広い範囲での擬周辺確率を考えて計算すれば、より正確な値を求める必要性がある。

これらに対してHasse図のアプローチで確率分布を分解する。

前回は周辺確率分布の近似計算が、変分問題を解くことによって得られることについて述べた。今回は、平均場近似と呼ばれる変分問題からの周辺確率分布の近似計算について述べる。

前述したとおり、サイクルのあるグラフ上での確率伝搬法は、ギブス自由エネルギー関数を近似したベーテ自由エネルギー関数の変分問題として定式化することができた。ここで述べる平均場近似(mean field approximation)では、ギブス自由エネルギー関数を近似するのではなく、変分を取る範囲を狭める。

平均場近似では、ギブス自由エネルギー関数の引数に入れる確率分布関数を各変数ごとの確率分布関数の積に分解するものに限る。

今回は平均場近似と呼ばれる変分問題からの周辺確率分布の近似計算について述べた。今回はグラフィカルモデルのパラメータを学習する手法について述べる。ここでは特に、グラフィカルモデルのすべての変数が観測される場合について述べる。

ここまでは、グラフィカルモデルが具体的に一つ与えられたもとで、その確率を計算する方法について述べた。今回は、データからグラフィカルモデルを求める方法について述べる。

ただし、背後にあるグラフの構造は既知とする。この場合、グラフィカルモデルを因子分解したときに現れる関数を学習する問題に帰着する。これらの関数は何らかのパラメータ付けがなされていることが多いので、本書ではこのようなタスクをグラフィカルモデルのパラメータ学習(parameter learning)と呼ぶ。一方、グラフ自体も学習するタスクは、構造学習(structure learning)と呼ばれる。

今回は、グラフィカルモデルの全変数がデータとして観測される場合に、パラメータの学習を行う方法について述べる。グラフ上の一部の頂点の値が観測されない場合については後述する。

前回は隠れ変数のないグラフィカルモデルの計算について述べた。今回は、グラフィカルモデルの頂点の変数のうち、一部のみがデータとして観測されているような状況を考える。このような問題設定は、隠れ変数(hidden variable, latent variable)のあるモデルの学習と呼ばれている。

アプローチとしては変分的EM法を中心に、wake-sleepアルゴリズム、MCEMアルゴリズム、確率的EMアルゴリズム、ギブスサンプリング、コントラスティブダイバージェンス法、制約ボルツマンマシン等についても紹介する。

前回は隠れ変数のあるグラフィカルモデルのパラメータ学習について述べるた。今回はグラフィカルモデルの具体例について述べる。具体的なグラフィカルモデルとしては、ボルツマンマシン、平均場近似、ベーテ近似、隠れマルコフモデル、ベイジアン隠れマルコフモデル等の計算について述べている。

前回はグラフィカルモデルの具体例について述べた。今回はグラフィカルモデルのMAP割り当ての計算について述べる。確率推論の場合と同様に、木の上では効率的に計算することが可能となる。MAP割り当て(maximum a posteriori assignment)とは、確率値を最大にするような状態を言い、MAP割り当てを求めることをMAP推定(MAP estimation)という。

アプローチとしてはTRW最大伝搬法、サイクルののある因子グラフ上の最大伝搬法、木のグラフ上での最大伝搬法、メッセージ伝搬によるMAP推定等で行っている。

今回は前回に引き続き、MAP推定を行うアルゴリズムについて述べる。離散状態のグラフィカルモデルに関してはMAP推定の問題は線形計画法として定式化することができる。この線形計画法の双対として新たなメッセージ伝搬アルゴリズムを導出する。

具体的なアルゴリズムとしてはmax-sum diffusion(MSD)アルゴリズム、Generalized MPLP、MPLPアルゴリズム、緩和問題の双対的解法、双対分解、メッセージ伝搬による解法、分離アルゴリズム、サイクル不等式、MAP推定問題の線形計画問題としての定式化となる。

今回は、グラフ構造そのものをデータから学習する方法について述べる。具体的なアプローチとしてはベイジアンネットワークやマルコフ確率場でグラフ構造をデータから学習する方法で、Max-Min Hill Climbming(MMHC)、Chow-Liuのアルゴリズム、スコア関数を最大化する方法、PC(Peter Spirtes and Clark Clymoir)アルゴリズム、GS(Grow-Shrink)アルゴリズム、SGS(Spietes Glymour and Scheines)アルゴリズム、スパース正則化、独立性条件等がある。

    コメント

    1. […] ベイズ推論による機械学習 […]

    2. […] 機械学習技術サマリー 人工知能技術サマリー デジタルトランスフォーメーション技術サマリー 確率的生成モデルサマリー   ベイズ推論による機械学習サマリー […]

    3. […] 機械学習技術サマリー 人工知能技術サマリー デジタルトランスフォーメーション技術サマリー 確率的生成モデルサマリー   ベイズ推論による機械学習サマリー […]

    4. […] 機械学習技術 人工知能技術 デジタルトランスフォーメーション技術 確率的生成モデルサ   ベイズ推論による機械学習 […]

    5. […] 機械学習技術 人工知能技術 デジタルトランスフォーメーション技術 確率的生成モデル   ベイズ推論による機械学習 […]

    6. […] 機械学習技術 人工知能技術 デジタルトランスフォーメーション技術 確率的生成モデル   ベイズ推論による機械学習 […]

    7. […] 機械学習技術 人工知能技術 デジタルトランスフォーメーション技術 確率的生成モデル   ベイズ推論とグラフィカルモデルによる機械学習 […]

    8. […] 機械学習技術 人工知能技術 デジタルトランスフォーメーション技術 確率的生成モデル   ベイズ推論とグラフィカルモデルによる機械学習 […]

    9. […] デジタルトランスフォーメーション技術 確率的生成モデル  ベイズ推論による機械学習 スモールデータと機械学習 […]

    10. […] デジタルトランスフォーメーション技術 確率的生成モデル  ベイズ推論による機械学習 スモールデータと機械学習 […]

    11. […] デジタルトランスフォーメーション技術 確率的生成モデル  ベイズ推論による機械学習 スモールデータと機械学習 […]

    12. […] デジタルトランスフォーメーション技術 確率的生成モデル ベイズ推論による機械学習 スモールデータ […]

    13. […] デジタルトランスフォーメーション技術 確率的生成モデル ベイズ推論による機械学習 スモールデータ […]

    14. […] デジタルトランスフォーメーション技術 確率的生成モデル ベイズ推論による機械学習 スモールデータ […]

    15. […] 確率的生成モデル スモールデータ ベイズ推論による機械学習 ノンパラメトリックベイズとガウス過程 python 経済とビジネス […]

    16. […] 確率的生成モデル スモールデータ ベイズ推論による機械学習 ノンパラメトリックベイズとガウス過程 python 経済とビジネス […]

    17. […] ベイズ推定の詳細情報については”確率的生成モデルについて“、”ベイズ推論とグラフィカルモデルによる機械学習“、”ノンパラメトリックベイズとガウス過程について“等に述べているので、これらを参照のこと。 […]

    タイトルとURLをコピーしました