統計的学習理論

数学 人工知能技術 デジタルトランスフォーメーション 機械学習技術 本ブログのナビ
統計的学習理論

機械学習アルゴリズムの統計的性質に関する理論を用いることで、機械学習アルゴリズムの性能や、データセットのサイズや複雑度による影響が理論的に解明され、モデルの選択や学習プロセスの改善を行うことができる。それらの理論には、以下のようなものがある。

  • 汎化誤差の理論:機械学習では、訓練データに対して高い性能を発揮することが求められるが、同時に未知のデータに対しても高い性能を発揮することが必要となる。この未知のデータに対する性能を汎化誤差と呼ぶ。汎化誤差の理論は、モデルの複雑度や訓練データサイズといった要因が、汎化誤差にどのように影響を与えるかを研究するものとなる。
  • 統計学的学習理論:この理論では、最適な学習アルゴリズムが存在することや、そのアルゴリズムの性能上限を導くことが可能であることが示される。また、訓練データサイズが増えるにつれて、学習アルゴリズムの性能がどのように変化するかを研究することもできる。
  • 確率的勾配降下法の理論:確率的勾配降下法は、大規模なデータセットに対して有効な学習アルゴリズムとなる。この理論では、勾配降下法によって得られたパラメーターが真のパラメーターに収束する確率的保証が与えられる。

ここでは主に統計的学習理論を中心に、(a)一様大数の法則、(b)普遍カーネル、(c)判別適合損失の3つについて述べている。国内外の著作では(a)について多くの記述がある。Foundation of Machine Learning(Mohri, MIT Press)では、ラデマッハ複雑度を主軸にして(a)についての見通しの良い理論を展開している。一方、(b)(c)を体系的に解説した著作はほとんどない。

機械学習アルゴリズムの統計的性質に関する理論は、統計的学習理論として知られている。統計的学習理論は、データから学習する際の確率的な性質や最適化の理論的な枠組みを提供しており、以下に示すような、機械学習アルゴリズムの統計的性質に関する様々なトピックがある。

それらの数学的なアプローチは、”機械学習プロフェッショナルシリーズ 統計的学習理論 読書メモ“で述べられている図書を参照することとし、ここではなるべく数式を使わない形で以下それらの詳細について述べる。

学習手法を使いこなすには、確率・統計に根ざした基礎理論が不可欠。「カーネ ル法」「サポートベクトルマシン」「ブースティング」などの重要概念の自然な 導入を図った。2値から多値まで、現実のデータに即した手法が学べる。

統計的学習理論では、主に予測損失と経験損失の2種類の損失を扱う。これらの損失の関係を調べることで、学習アルゴリズムの予測精度などを定量的に評価することができる。

仮説集合が有限集合の場合について、学習された仮説の予測損失を評価する。これから述べるものが、統計的学習理論の本質になる。

仮説集合の複雑さを測るための尺度として、VC次元とラデマッハ複雑度がある。これらの尺度により、予測損失と経験損失の関係が統制される。以下、それぞれの詳細について述べる。

判別問題では仮説の精度を0-1損失で評価しているが、多くの学習アルゴリズムは、最小化しやすい別の損失を用いている。ここでは、2値判別において損失を置き換えることの正当性について述べ、その中でも重要な損失のクラスである判別適合損失について述べる。(ランプ損失、凸マージン損失、非凸なΦ-マージン損失、判別適合的、ロバスト・サポートベクトルマシン、判別適合性定理、L2-サポートベクトルマシン、2乗ヒンジ損失、ロジスティック損失、ヒンジ損失、ブースティング、指数損失、凸マージン損失の判別適合性定理、ベイズ規則、予測Φ-損失、予測判別誤差、単調非増加凸関数、経験Φ-損失、経験判別誤差)

カーネル法で用いられるカーネル関数や再生核ヒルベルト空間について述べる。また応用上重要な表現定理についても述べる。さらに加えて、高い表現力をもつ普遍カーネルの基本的な性質についても述べる。

カーネル関数からの推定量\(\hat{f}(x)\)は線形モデルMに含まれ、関数Φ(x)TΦ(x’)の線形和で与えられる。関数Φ(x)TΦ(x’)の代わりに一般のカーネル関数を用いる時、推定量はカーネル関数の線形和で与えられる。そこでカーネル関数の線形和で生成される線型空間H0を以下のように定義する。

線形モデルMを用いて推定量を構成する場合、学習された関数\(\hat{f}(x)\)は、データ点x1,…,xnに対応する関数k(xi,・),i=1,…,nの線形和として表される。この性質は、一般の再生核ヒルベルト空間において表現定理としてまとめられる。

次に、再生核ヒルベルト空間Hを統計モデルとする学習アルゴリズムについて述べる。予測精度の評価などで一様大数の法則を用いるが、その際、ラデマッハ複雑度を求める必要鵜がある。ここでは、再生核ヒルベルト空間Hの有界集合に対するラデマッハ複雑度を評価する。

再生核ヒルベルト空間が無限次元のとき、広いクラスの関数を近似できると期待される。本節では、連続関数に対する近似誤差が十分小さくなる統計モデルとして、普遍カーネルとよばれるカーネル関数に対応する再生核ヒルベルト空間について述べる。

カーネル法の代表例として、C-サポートベクトルマシンについて述べる。C-サポートベクトルマシンでは、統計的一致性の証明を与える。サポートベクトルマシン(support vector machine SVM)は機械学習における代表的な学習アルゴリズムの総称となる。ここでは、2値判別のための学習アルゴリズムであるC-サポートベクトルマシン(C-support vector machine)とν-サポートベクトルマシン(ν-support vector machine)について述べる。ここでCとνは正則化パラメータを意味する。

ν-サポートベクトルマシンは、C-サポートベクトルマシンの正則化パラメータCを、より明確な意味を持つパラメータνに置き換えたアルゴリズムとなる。

データ(x,y)に対する判別関数f(x)+bの損失をヒンジ損失Φhingeで測るとする。このときsign(f(xi)+b)=yiであっても、マージンmi=yi(f(xi)+b)の値が1未満のときには非零の損失を被る。閾値である1は、定数としてあらかじめ決められている。一方、閾値をデータに合わせて可変にし、マージンがある正数ρ未満のとき損失を被るような損失関数を用いることもできる。これは、損失関数をmax{ρ-mi,0}とすることで実現できる。ここで、ρを可変にすると、どのようなデータに対しても小さなρを選べば良いことになり、このままでは適切に損失を測ることができない。そこで、閾値ρを小さくすることに対するペナルティ項-νρを加え、以下のようにして、特別関数に対する損失を定義する。

今回は単純な学習アルゴリズムを組み合わせる学習法である集団学習について述べる。またその代表例としてブースティングについて述べ、予測精度の理論的な評価を与える。

多値判別問題では、入力空間𝒳の要素を有限集合𝒴={1,…,L}の要素に割り当てる判別器h:𝒳→𝒴を学習する。画像データから数字や文字を読み取るタスク、またテキストデータのタグ付けなどは多値判別として定式化される。2値判定と同じように議論できる場合もあるが、多値判別特有の難しさもある。ここでは、多値判別のための標準的な損失関数や統計モデルについて述べ、予測判別誤差に関する理論的な解析手法などについて述べる。

判別関数を効率的に学習するために、計算しやすい損失関数を用いてアルゴリズムを設計する必要がある。一方、予測精度は通常、予測判別誤差に基づいて評価される。したがって、学習で用いる損失関数と予測精度を評価するための損失関数は一般には異なる。このような状況で、学習された判別器が高い予測精度を達成するかどうかについて述べる。2値判別については、”統計数学理論における判別適合的損失についての概要“で述べた。ここでは多値判別に対する判別適合損失にについて述べる。

コメント

  1. […] これを非線形な問題にも対応できるようにするには、パーセプトロンを多層に繋げる必要があるが、多層にすることでモデル内部のパラメータの数が飛躍的に増加して計算ができなくなるという課題があり近年まではあまり検討されていなかった。これに対して2006年に”特徴量はどこから来るのか“に述べているジェフリー・ヒントンが提案したオートエンコーダー(“オートエンコーダー“を参照のこと)で、多層のニューラルネットの計算に”確率的最適化“で述べられているSGDや”機械学習のための連続最適化“で述べられている勾配降下法などの数学的な最適化手法を用いることでブレークスルーを起こし、これまで困難であった多層なニューラルネットを計算できるようになり、”統計的学習理論“で述べられているような手法で理論的な裏付けも得られるようになった。 […]

  2. […] 機械学習における最適化の詳細は、”はじめての最適化 読書メモ“、”機械学習のための連続最適化“、”統計的学習理論“、”確率的最適化“等も参照のこと。 […]

  3. […] 機械学習における最適化の詳細は、”はじめての最適化 読書メモ“、”機械学習のための連続最適化“、”統計的学習理論“、”確率的最適化“等も参照のこと。 […]

  4. […] 機械学習における最適化の詳細は、”はじめての最適化 読書メモ“、”機械学習のための連続最適化“、”統計的学習理論“、”確率的最適化“等も参照のこと。 […]

  5. […] 機械学習における最適化の詳細は、”はじめての最適化 読書メモ“、”機械学習のための連続最適化“、”統計的学習理論“、”確率的最適化“等も参照のこと。 […]

  6. […] 機械学習における最適化の詳細は、”はじめての最適化 読書メモ“、”機械学習のための連続最適化“、”統計的学習理論“、”確率的最適化“等も参照のこと。 […]

  7. […] 数学 人工知能技術 デジタルトランスフォーメーション 機械学習技術 統計的学習理論 カーネル法 […]

  8. […] 機械学習における最適化の詳細は、”はじめての最適化 読書メモ“、”機械学習のための連続最適化“、”統計的学習理論“、”確率的最適化“等も参照のこと。 […]

  9. […] 機械学習における最適化の詳細は、”はじめての最適化 読書メモ“、”機械学習のための連続最適化“、”統計的学習理論“、”確率的最適化“等も参照のこと。 […]

  10. […] 機械学習における最適化の詳細は、”はじめての最適化 読書メモ“、”機械学習のための連続最適化“、”統計的学習理論“、”確率的最適化“等も参照のこと。 […]

  11. […] 機械学習における最適化の詳細は、”はじめての最適化 読書メモ“、”機械学習のための連続最適化“、”統計的学習理論“、”確率的最適化“等も参照のこと。 […]

  12. […] 機械学習における最適化の詳細は、”はじめての最適化 読書メモ“、”機械学習のための連続最適化“、”統計的学習理論“、”確率的最適化“等も参照のこと。 […]

  13. […] 機械学習における最適化の詳細は、”はじめての最適化 読書メモ“、”機械学習のための連続最適化“、”統計的学習理論“、”確率的最適化“等も参照のこと。 […]

  14. […] 機械学習における最適化の詳細は、”はじめての最適化 読書メモ“、”機械学習のための連続最適化“、”統計的学習理論“、”確率的最適化“等も参照のこと。 […]

タイトルとURLをコピーしました