特徴量はどこから来るのか

機械学習技術 自然言語技術 人工知能技術 デジタルトランスフォーメーション技術 画像処理技術 強化学習技術 確率的生成モデル 深層学習技術 本ブログのナビ
特徴量はどこから来るのか

岩波書店の「人工知能 チューリング/ブルックス/ヒントン<名著精選〉 心の謎から心の科学へ」の中から、ジェフリー・ヒントンの「Where Do Function Come From?」(Cognitive Science 38:1078-1101)。

人間の脳が外界のさまざまなモノや事象(物体の形状、場面の配置、単語の意味、そして文の意味等)を神経活動の時空間パターンとして表現するには、その手段として大きく分けて二通りの方法が考えられる。

一つは、事物一つ一つに対して一個の神経細胞があるような大きな神経細胞プールを準備して、その中の一個の神経細胞を活性化することで、個々の存在物を表そうとするもの。もう一つが各存在物を数多くの神経細胞における活動で表し、個々の神経細胞は多数の存在物の表現にかかわるものとするもの(分散表現)。

前者のアプローチでは、大脳皮質は100億個程度しか存在せず、たとえ細胞をすべて使っても森羅万象を表現するには明らかに不足で成り立たないのに対して、後者のアプローチでは、仮に細胞が二値しかとらないとしても最大2の100億乗が表せることになり、神経細胞の表現形態としては「分散表現」が行われているものと考えるのが妥当だとされている。

ここで、そのように人間の頭の情報が分散表現による特徴量で成り立っているとしたとき、その「特徴量」はどこから来るのか?についてヒントンは更に考察を進めている。まず一番シンプルな仮説は、DNA等に生まれつき刷り込まれていると言う「特徴量は生得的に指定されている」仮説だ。この仮説に関しては、DNAが保有できる情報の中に、シナプスが持つであろう1012ビットの情報(シナプス量は1014個ありそれらの中で1%を特徴量の認織に利用して細胞が2値しか取らないと仮定した時の数字)はとても収まらないことや、世界が変化するスピードは生得的に指定された情報だけでは十分に迅速に対応できないことからこの仮説は否定されるとしている。

次に「特徴量は学習により獲得された」とする仮説を考えた場合、この学習がどのようなメカニズムで行われたかを考えることが重要となる。ヒントンは当時最先端であった逆誤差伝搬法を用いた決定論的な順伝搬型ネットワークを考えた。この学習方法は大量のラベル付きデータを必要とする為、それらがが自然に与えられるというメカニズムが考えられず、妥当ではないと結論つけた。

次にヒントンは特徴量(へのラベル)をつける手段として、入力の全体もしくは一部を再構成したものをニューラルネットの出力とするものを検討した。これは静的なデータの場合は、深層自己符号化器  (DeepAutencode) に当たる。また動的なデータの場合は生成モデルとよばれる確率分布を用いたアルゴリズムの適応を検討した。これは当時”統計物理学と人工知能技術への応用“で述べている統計物理や量子力学の世界で考えられていた無向グラフィカルモデル(あるいはマルコフランダム場)と呼ばれるモデルで、物質の磁気スピンのインジングモデルの計算としても知られているものとなる。

このモデルでのアルゴリズムが物理学者のボルツマンに因んでボルツマンマシンとよばれる。これは下図のそれぞれ左側に示すような完全グラフ(ノードが全て繋がっているグラフ)の確率的なパラメータを計算することで、特定のノード間のつながり等を推定するものとなる。

ボルツマンマシン例(1)*1)

ボルツマンマシン例(2)*1)

このモデルの弱点は膨大な計算量が必要なことで、大規模なネットワークでは計算爆発が起こり、現在の計算機では計算困難であることにある。これらをそのまま計算する為のハードウェア的なアプローチが量子コンピューティングで、既存の計算機でも計算可能なようにグラフ構造に強い制約(隠れ変数と可視変数の2つの層構造とし、それぞれの層の中では関係を持たない)を与えたモデルが制約ボルツマンマシン(Restricted Boltzman Machine:RBM)、またそれらを並べたものをディープビリーフネットワーク(Deep Belief Network:DBN)となる。

制約ボルツマンマシン*1)

ディープビリーフネットワーク*1)

ヒントンの論文ではこれらRBMやDBNについての議論が行われ、これらのボルツマンマシンを使う事で「(ネッカーの立方体錯視で見られるような)多重安定性や、知覚的推論におけるトップダウン効果が見られる」と述べられている。これは単純な情報から複雑な特徴を抽出できる可能性がある事を述べているのではないかと思う。

*1)AI-MASTER WIKIより

 

コメント

  1. […] このように、その事象がもつ一つあるいは少数の特徴的な要素で表現することを「局所表現(local representation)」と呼ぶ。それに対してある事象を表現する際に、他の事象と概念を共有する多種多様な特徴の集まりとして表現するものを「分散表現(distributed representation)」と呼ぶ。 […]

  2. […] 線形モデルはシンプルなモデルの解釈が可能という利点がある反面、現実の問題(結果が正規分布に従わなかったり、特徴量間に相互作用があったり、あるいは、特徴量と結果の間の真の関係が非線形であったりするような場合)に対応することが困難であるという欠点がある。これらの課題に対応する為、一般化線形モデル(GLM:General Linear Models)や、一般化加法モデル(GAM:General Additive Model)が提案されてきた。 […]

  3. […] これに対してニューラルネットの研究分野では2006年にジェフリー・ヒントンによる深層信頼ネットワーク技術の開発で、従来は勾配消失(vanishing gradient problem)などの理由で学習が難しかった複数層を持つ深いネットワークに対しても効率的に学習が行えることが示され、より自由なネットワーク構造や深いネットワークに対する理論解析や予測性能向上が探求できるようになった。 […]

  4. […] 特徴量はどこから来るのか ヒントンの論文より(分散表現) […]

  5. […] 確率モデルの基本コンセプトは、それら不確実性を持った事象(確率変数)の間を関係性を示した辺で繋いでグラフにするもので、深層学習の始まりに登場した制約つきボルツマンマシン、混合ガウス分布やナイーブベイズもグラフィカルモデルの一種となる。これらは機械学習の複雑なモデルを表すシーンで多く活用されている。 […]

  6. […] 分散表現の詳細に関しては、Word2Vecあるいは深層学習の項に詳細を述べる。 […]

  7. […] 特徴量はどこから来るのか ヒントンの論文より(分散表現) […]

  8. […] の機械学習は以下の3つのステップから構成される。抽象化(abstraction)と呼ばれるデータから特徴量を抽出するステップ、汎化(generalization)と呼ばれる特徴量からのパターンの抽出(例えば分 […]

  9. […] 線形モデルはシンプルなモデルの解釈が可能という利点がある反面、現実の問題(結果が正規分布に従わなかったり、特徴量間に相互作用があったり、あるいは、特徴量と結果の間の真の関係が非線形であったりするような場合)に対応することが困難であるという欠点がある。これらの課題に対応する為、一般化線形モデル(GLM:General Linear Models)や、一般化加法モデル(GAM:General Additive Model)が提案されてきた。 […]

  10. […] この技術に関しては、アシモフは気体分子運動論をヒントに作り出しており、個々の分子の運動は予測できないが、集団の気体ということなら平均の運動は計算できるということについて、分子を人間に、気体を人間の集団に置き換えている。現在の技術的アプローチでいうと「特徴量はどこから来るのか」で述べたボルツマンシンに当たるだろうか。または近年大流行のBERTの原理とも近いグラフニューラルネットワークのようなアルゴリズムにも近いものとなる。 […]

  11. […] デルとなる。エンコーダーとデコーダーは通常、対称的な構造を持つ。また”特徴量はどこから来るのか“や”で述べているように近年の深層学習技術の隆盛のきっかけとなった […]

タイトルとURLをコピーしました