深層学習手法の全体像
以前述べた機械学習のアルゴリズの紹介の中でニューラルネットについてざっくりと述べたが今回はそれらを一歩進めた深層学習技術についての全体像を述べる。人工知能学会より出版されている「深層学習Deep Learning」の序文の「深層学習手法の全体像」から。
深層学習の全体像は以下の図のようになる。
大きく分けると入力に対して確定的に出力が決まる「確定的モデル」と確率モデルをベースとした「確率的モデル」の二種類がある。確定的ニューラルネットの多くは、階層型ニューラルネットワークと自己符号化器に分類される。
階層的ニューラルネットは、入力から出力へ結合を通じて符号が順伝搬するフィードフォワード型の構造をしており、主に教師あり学習に用いられる。階層的ニューラルネットとしては、パーセプトロン、多層パーセプトロン、深層(階層型)ニューラルネット、再帰ニューラルネット、畳み込みニューラルネット、回帰結合ニューラルネット等がある。
パーセプトロンは2層のみで構成される最初に提案されたニューラルネットである。線形分離可能(n次元平面上のデータをn-1次元の超平面で分離できること)と呼ばれる条件を満たす問題しか解けないと言う制約がある。解ける問題に関しては有限回の更新でがくしゅうが収束することが証明されている。
多層パーセプトロンは、3層前後のフィードフォワード構造を備えた階層型ニューラルネットワークであり、深層学習の登場前に最も多く使われていたニューラルネットである。学習方法として誤差逆伝播法が適用されたものであり、教師あり学習の適用がほとんどだが競合学習則(入力データに対して最大出力を与えるニューロン (とその近傍のニュー ロン) の結合係数のみを変更する学習則)を適用した教師なし学習に用いられる場合もある。
深層ニューラルネットは、広義には多層のニューラルネットワーク全般のことを指し、狭義にはフィードフォワード構造の階層型ニューラルネットを4層以上に拡張したものを指す。この狭義のニューラルネットは、3層でも中間層のノード数が十分であれば任意の関数を近似できると言う論理点利点を備えていたが、局所最適解や勾配消失という技術的課題のために、広くは使われなかった。ここで中間ノード数を増やすより、深層化のほうが効果的に予測性能を向上させることが発見的に示されたことと、事前学習やDropOut等の新技術の登場や、活性化関数やネットワーク構造などの工夫により技術的課題にブレイクスルーが生じて広く使われるようになった。(これらの詳細は別途述べる予定)
再帰ニューラルネットは再帰的部分構造を持ったニューラルネットで、下位の部分木構造から、上位の部分木構造を再帰的に構成する木構造になっているため、再帰ニューラルネットと呼ばれる。
畳み込みニューラルネットは畳み込み構造を組み込んだ階層型ニューラルネットワークである。深層学習の登場以前からネオコグ二トロンやLetNetなどとして提案されていた。2010年代の分散並列計算技術の発展と、学習用データの大規模化により画像認識の分野で特に普及している。
回帰結合ニューラルネットは、時系列データを処理する目的で考案されたもので、前回の時刻の入力の情報を現在の入力の情報に伝える為の回帰結合入力を備えている。畳込みニューラルネットと同様に、深層学習以前から提案されていたが、2010年代の学習の大規模化に伴って、音声認識や自然言語処理の分野で普及している。勾配消失問題に対応したlong-short-term-emmory法などの改良も行われている。
もう一つの確定的モデルである自己符号化器は、砂時計型のニューラルネットワークであり、教師なし学習を行う。自己符号化器、深層自己符号化器、積層自己符号化器、雑音除去自己符号化器等がある。
自己符号化器は、教師なし学習により入力の低次元表現を獲得する目的で考案された。入力を中間層で低次元表現に変換する符号化と、この低次元表現を元の次元の表現に戻す復号化とを組み合わせた3層の砂時計型の構造をしている。入力信号と出力信号の間の再構成誤差を小さくするように学習を行う。
深層自己符号化器は、入力から中間層までの符号化部と、中間層から出力までの復号化部分の総数を増やして深層化したものになる。
積層自己符号化器は、層ごとの貪欲学習により深層自己符号化器の勾配消失課題を解決したもの。
雑音除去自己符号化器は、入力信号に雑音を加えることで、未知の信号に対するロバスト性を向上したものとなる。
確率的モデルはボルツマンマシン(確率分布を近似するマシン)に由来するボルツマンマシン、制約ボルツマンマシン、深層ボルツマンマシン、深層信念ネットワークからなる。
ボルツマンマシンは、マルコフ確率場と言う確率モデルの一種である。観測・隠れ変数を描くノードとし、これらのノード間の依存関係を無向の結合で示したグラフィカルモデルで記述される。組み合わせ爆発問題により学習が困難な為あまり利用されない。
制約ボルツマンマシンは、ボルツマンマシンに、観測変数と隠れ変数の間にしか依存関係がないように制限を加えたモデルとなる。この制限のおかけで上述の学習の制約が大幅に緩和され実用的な計算ができるようになった。ハーモニウムという名称で提案されたが現在では制限ボルツマンマシンと言う名称が定着している。
深層ボルツマンマシンは、制限ボルツマンマシンの隠れ変数のそうをそのまま多段にすることで深層化したモデルとなる。事前学習やコントラスティ部・ダイバージェンス法などの手法の開発が進み多く利用されている。
深層信念ネットワークは、隠れ変数を多層にして深層化する点では深層ボルツマンマシンと同等だが、その依存関係を無向の結合ではなく、有向の結合としたものとになる。事前学習等の技術が活用でき2000年代に普及が進んでいる。
コメント
[…] コンピューターサイエンスの根底には数学がある。例えば深層学習等の機械学習には関数から始まり微分/積分を使った最適化の計算が使われ、シンボリックなアプローチでは集合論がベースに式の評価が行われたりしている。それらの「応用」を考える前にそれぞれの基礎的な要素について知識を整理することは重要な作業となる。 […]
[…] 大規模で複雑なモデルの解析を得意とする深層学習と、モデリングというプロセスを通してデータに仮定できる知識や構造を積極的に導入して、データ欠損や未確定値など「必要なデータが全て揃っていない」ケースで強みを発揮する確率計算に基づく確率的生成モデルは、それぞれが独自に発展してきた。 […]
[…] これに対して機械学習の領域では、計算の効率化や最適化アルゴリズムなどを統計理論に取り入れることで、大規模データへの適応を目指して発展してきた。例としては、機械学習の初期の大きな成功であるサポートベクトルマシンや、近年爆発的に発展している高次元スパース学習、そして従来の統計的パターン認識の限界を大きく超え、人間に劣らない認識能力を発達しつつある深層学習等がある。 […]
[…] 並行処理は先述のUIを含めたI/O等の実質上時間がかかる処理と、計算のみの短時間で終わる処理をうまくより分けて実行する主にOSの中での処理に使われ、並列処理は計算処理そのものを細かく分け同時に実行させる深層学習のようなタスクに使われる。 […]
[…] ここで測定されるものは空間的な距離ではなく、イメージの違いの割合となる。上の文字は6%の差しかなく近いイメージとなり、下の文字は21%異なるので違うイメージとなる。ここで計測方法(特徴量の出し方)を工夫すると最近傍法でも手書き文字の認識で99.5%の精度が出る事が報告されており、深層学習のような凝ったアルゴリズムを使わなくとも、このようなシンプルな手法で高精度が得られることが確認されている。 […]
[…] 深層学習(DNN)のwikiのページを読むと「2006年にニューラルネットワークの代表的な研究者であるジェフリー・ヒントンらの研究チームが、制限ボルツマンマシンによるオートエンコーダ(自己符号化器)の深層化に成功[注釈 5]し、…2012年には物体の認識率を競うILSVRCにおいてジェフリー・ヒントン率いるトロント大学のチームがAlexNetによって従来の手法(エラー率26%)に比べてエラー率17%と実に10%もの劇的な進歩を遂げたことが機械学習の研究者らに衝撃を与えた。」とある。 […]
[…] 近代深層学習技術の始まりであるオートエンコーダーについての項で、ヒントンらの論文では先行例としてPCAを述べていた。今回はそのPCAについてもう少し具体的に述べる。 […]
[…] 「Word2Vecにより自然言語処理」より。word2VecはTomas Mikolowらによって提案されたオープンソースの深層学習技術となる。原理的には単語のベクトル化(デフォルトのパラメータでは200個の次元)をするもので、200次元の空間上に単語を位置づけ、単語間の類似性(例えばコサイン類似度で評価)を見たり、クラスタリングを行なったりすることができるものとなる。 […]
[…] また、ゲームの分野の成功も顕著であり、1992年のTesauroによるバックギャモンの成功から、近年では囲碁や将棋、テレビゲームまで強化学習と深層学習を組み合わせた報告が相次いで行われている。 […]
[…] 天気予報や株式予測といった逐次的な予測・意思決定問題は古くから統計学などの立場で研究されてきた。これに対して近年はコンピューターサイエンスの観点での学習・予測問題としてアルゴリズム的視点からアプローチが行われ「計算学習理論」や、その中でも逐次的な予測問題を扱う理論は「オンライン予測理論」と呼ばれ、深層学習等で発展した最適化理論と結びつき急速な発展を遂げている。 […]
[…] 確率モデルの基本コンセプトは、それら不確実性を持った事象(確率変数)の間を関係性を示した辺で繋いでグラフにするもので、深層学習の始まりに登場した制約つきボルツマンマシン、混合ガウス分布やナイーブベイズもグラフィカルモデルの一種となる。これらは機械学習の複雑なモデルを表すシーンで多く活用されている。 […]
[…] これらで作成されたデータを用いて各種の分類や深層学習の処理が可能になる […]
[…] 深層学習に代表される一般的な機械学習技術が特徴量変数の組み合わせから一つの答えを得るものなのに対して、確率生成モデルでは確率的な複数の答えを解として持つことを特徴とする。そのためこれらを用いることで、より複雑な人工知能システムを構築することができる。本ブログではそれら確率的生成モデルに対して、理論のベースとなるベイズ推定とそれらの応用について、以下のように述べる。 […]
[…] また近年では、言語処理への深層学習の導入として、Attensionという処理をベースとしたTransformerというモジュールを中心に研究が進められている。トランスフォーマーは以下に示すようなブロック図で表され、 […]
[…] 自然言語の画像認識や音声認識と大きく異なる特徴として、処理対象が離散的な「記号」であるというものがある。その反面ニューラルネットの中身はベクトルや行列で表された連続値(最適化の計算も連続的な関数計算として行われる)である為、自然言語処理の処理単位である単語や文といった「離散的な」記号を深層学習/ニューラルネットで処理できるようにベクトルや行列のような「実数値連続領域のデータ」に変換する必要がある。 […]
[…] このスパースモデリングは、現代の機械学習のブレークスルーとして、深層学習、カーネル法に並ぶものとして挙げられている。 […]
[…] 分散表現の詳細に関しては、Word2Vecあるいは深層学習の項に詳細を述べる。 […]
[…] 深層学習の全体像 深層学習の歴史と全体像 […]
[…] 深層学習 : 数千から数億のパラメータを学習するタスク。画像処理等で成果が上がる。 […]