データの幾何学的アプローチ
情報を幾何的に扱うアフーローチには様々なものがある。一つが柔らかい幾何と呼ばれる情報の位相を扱うものでトポジカルデータアナリシス等がある。もう一つが固い情報幾何とよばれる確率分布を要素とする統計モデルに関する微分幾何学的研究を扱うもので、リーマン幾何学、シンプレクティック幾何学、複素幾何学等のアプローチがある。
情報幾何学の応用は、EMアルゴリズムのような統計的推論のみならず、”統計物理学と人工知能技術への応用“で述べている統計物理学や学習理論、情報熱力学にまで及んでおり、さらに、量子情報幾何やワッサースタイン幾何、ルピナー幾何などの発展も期待されている。また、人工知能の分野では、ニューラルネットや神経発火パターンの情報の解釈に応用されたり、超弦理論と量子情報を結ぶ学術領域では、情報幾何学が応用され始めているものとなる。
以下に本ブログにおける情報幾何に関する記事をまとめる。
幾何学
コンピューターサイエンスの根底には数学がある。例えば深層学習や自然言語処理等に用いられるの機械学習には関数から始まり微分/積分を使った最適化の計算が使われ、人工知能で使われるシンボリックなアプローチでは集合論がベースに式の評価が行われたりしている。それらのデジタルトランスフォーメーション応用やITシステム応用を考える前にそれぞれの基礎的な要素について知識を整理することは重要な作業となる。
小島寛之氏による「数学入門」は、ピタゴラスの定理から始まる幾何学、機械学習の世界によく現れる関数、微分、代数、積分、そして最後に基礎数学の土台である集合について述べられている文字通り数学の入門書で、分量も新書版で250ページとお手頃な分量となる。
- 幾何学の原点を探る 非ユークリッド幾何学の世界
「柔らかい」幾何
今回は位相的データ解析(Topological Data Analysis)についてのべる。
位相的データ解析とはデータの集合をトポロジーと呼ばれる「柔らかい」幾何を用いて解析する手法となる。幾何学を使ったデータ解析としては情報幾何学と呼ばれるものがあるが、こちらは機械学習を幾何的に説明しようというもので、機械学習とは,データが与えられた とき,そのデータにうまくあてはまるモデルを見つけると いう操作であり、モデルとは何らかのパラメータで表される空間であると考えると、データ点からモデルの空間への射影(関数)を見つけることが機械学習の本質となる。
それに対してトポロジーはというと、よく使われているコーヒーカップとドーナッツの例で言うと。コーヒーカップが切れない粘土のようなものでできているとした時、それを少しずつ変形していくと、最終的にドーナッツに変形することができる。
情報幾何学
- 情報幾何とは何か
情報幾何学は最初に統計学に表れた。確率分布の空間を幾何学的に考察することで、従来の数理統計学に新しい見方と知見を加えた。例えば、問題とする確率分布の空間の曲がり方(曲率)が、パラメータ推定器の性能に関係づけられる。これは幾何学ならではという美しい結果となる。
これらの結果は、確率分布の空間が持ついくつかの双対的な構造から導かれる。相違というとこ馬の使い方は多様で、ここで”双対的な構造”というのは、あるものを2回裏返すと元に戻ったり、2つのものが協調して何かを支え合っている構造イメージとなる。このような双対性を備える”情報幾何学的な構造”は、確率分布の空間にだけ現れる特殊なものではない。例えば最適化に現れる”双対性”、あるいは熱力学に現れる”自由エネルギー”と”エントロピー”などがその例とみなせる。このように情報幾何学は統計科学の枠を超えて広がり、さまざまな分野にその応用が見出される。
今回はガウシアングラフィカルモデルという因果推論における基本モデルを導入し、そこに顕れる正定値対称行列の情報幾何について述べる。
情報幾何が活躍する分野の一つとしては統計学がよく知られているが、今回は情報幾何が別の分野に現れる典型例として、半正定値計画問題とその情報幾何について述べる。特に、半正定値計画問題の主要解法である内点法の反復回数が、情報幾何的な曲率を積分した量として表現できることを中心に述べる。
ここでは、木以外の場合にも確率伝搬法のアルゴリズムを適用し、近似的に周辺確率分布を計算する。これは、変分法の観点からはベーテ近似として理解できる。
前述では、木の上での確率伝搬法のアルゴリズムについて述べた。これは。周辺確率分布をメッセージ伝搬を用いて効率的に計算するものとなる。サイクルのあるグラフ上でも、アルゴリズム1のように同様のアルゴリズムを適用する事により、近似計算を行う事ができる。
SVMと関連する派生手法は、入力である特徴ベクトルに対してその内積にのみ依存していた。この性質により、特徴空間Fに写像された特徴ベクトルΦ(x)の内積をカーネル関数(kernel function)K(xi,xj)=Φ(xi)TΦ(xj)に置き換えることで、明示的にΦ(x)を計算することなく複雑なモデルが実現できる。ただし、どんな関数でもカーネル関数として用いることができるわけではない。
今回は、どのような関数であれば、カーネル関数として用いることができるのか、またカーネル関数に対してどのような操作をすることができるのかについて述べる。またカーネル関数は学習における正則化とも深いかかわりがある。
今回述べるカーネル関数としては、一般的なカーネル関数(線形カーネル,多項式カーネル,RBFカーネル)と確率的データ、文字列データ、グラフ型データでのカーネル関数(p-スペクトラムカーネル,全部分列カーネル,ギャップ重み付きカーネル,フィッシャーカーネル,グラフラプラシアン,通勤時間カーネル,拡散カーネル,正則化ラプラシアン,ランダムウォーク)となる。
前回はFTL戦略の有効性と限界について述べた。FTL戦略における教訓は単純かつ貪欲な予測戦略ではうまくいかない場合があるということとなる。今回はFTL戦略の弱点を補うような戦略について述べる。
機械学習で最も重要な概念の一つは「正則化」となる。サポートベクトルマシンなど機械学習で成功を収めている手法の多くは、単純に経験的な損失(訓練誤差など)を最小化する仮説を学習するのではなく、経験的な損失と何らかの関数(正則化項と呼ばれる)を同時に最小化する仮説を学習する。回のアプローチは、正則化項を加味することにより、過去の経験的な損失だけにとらわれずに、今後現れるであろう将来の損失に対して備えると見ることもできる。実際、統計的学習理論の分野では、妥当な仮定のもとで正則化に基づく手法の汎化誤差を評価することが可能となる。
同じような事がオンライン予測の文脈でも成り立つ。これから述べるものは、Follow The Regularized Leader戦略(FTRL戦略)と呼ばれるもので、FTL戦略に正則化の考え方を取り入れたものとなる。
テンソル
テンソル分解法(Tensor Decomposition)は、高次元のテンソルデータを低ランクのテンソルに近似する手法であり、この手法は、データの次元削減や特徴抽出に使用され、機械学習やデータ解析のさまざまなアプリケーションで有用なアプローチとなる。ダイナミックモジュール検出にテンソル分解法を適用することは、時系列データや動的なデータモジュールの検出といったタスクに関連する。
応用
- 物理学と情報幾何
- 人工知能と情報幾何
- 量子情報と情報幾何
コメント
[…] 本ブログでは 以下のページにて、このデータの幾何学的アプローチについて述べる。 […]
[…] デジタルトランスフォーメーション 深層学習 機械学習における数学 データの情報幾何的アプローチ […]
[…] デジタルトランスフォーメーション 深層学習 機械学習における数学 データの情報幾何的アプローチ […]
[…] デジタルトランスフォーメーション 深層学習 機械学習における数学 データの情報幾何的アプローチ […]
[…] 深層学習 自然言語処理 ITシステム 機械学習における数学 データの情報幾何的アプローチ […]
[…] デジタルトランスフォーメーション 深層学習 機械学習における数学 データの情報幾何的アプローチ […]
[…] デジタルトランスフォーメーション 深層学習 機械学習における数学 データの情報幾何的アプローチ […]
[…] デジタルトランスフォーメーション 深層学習 機械学習における数学 データの情報幾何的アプローチ […]
[…] デジタルトランスフォーメーション 深層学習 機械学習における数学 データの情報幾何的アプローチ […]
[…] デジタルトランスフォーメーション 深層学習 機械学習における数学 データの情報幾何的アプローチ […]
[…] デジタルトランスフォーメーション 深層学習 機械学習における数学 データの情報幾何的アプローチ […]
[…] デジタルトランスフォーメーション 深層学習 機械学習における数学 データの情報幾何的アプローチ […]
[…] デジタルトランスフォーメーション 深層学習 機械学習における数学 データの情報幾何的アプローチ […]
[…] デジタルトランスフォーメーション 深層学習 機械学習における数学 データの情報幾何的アプローチ […]