人工知能の基礎、深層学習の祖ヒントンの論文による特徴量の分散表現

[su_button url=”https://deus-ex-machina-ism.com/?page_id=3553″ target=”blank”]機械学習技術[/su_button] [su_button url=”https://deus-ex-machina-ism.com/?p=283″ target=”blank”]自然言語技術[/su_button] [su_button url=”https://deus-ex-machina-ism.com/?page_id=3707″ target=”blank”]人工知能技術[/su_button] [su_button url=”https://deus-ex-machina-ism.com/?page_id=3551″ target=”blank”]デジタルトランスフォーメーション技術[/su_button] [su_button url=”https://deus-ex-machina-ism.com/?p=9398″ target=”blank”]画像処理技術[/su_button] [su_button url=”https://deus-ex-machina-ism.com/?p=17082″ target=”blank”]強化学習技術[/su_button] [su_button url=”https://deus-ex-machina-ism.com/?p=6757″ target=”blank”]確率的生成モデル[/su_button] [su_button url=”https://deus-ex-machina-ism.com/?p=10488″ target=”blank”]深層学習技術[/su_button] [su_button url=”https://deus-ex-machina-ism.com/?page_id=12232″ target=”blank”]本ブログのナビ[/su_button]

特徴量はどこから来るのか

岩波書店の「人工知能チューリング/ブルックス/ヒントン<名著精選〉心の謎から心の科学へ」の中から、ジェフリー・ヒントンの「Where Do Function Come From?」(Cognitive Science 38:1078-1101)。

人間の脳が外界のさまざまなモノや事象(物体の形状、場面の配置、単語の意味、そして文の意味等)を神経活動の時空間パターンとして表現するには、その手段として大きく分けて二通りの方法が考えられる。

一つは、事物一つ一つに対して一個の神経細胞があるような大きな神経細胞プールを準備して、その中の一個の神経細胞を活性化することで、個々の存在物を表そうとするもの。もう一つが各存在物を数多くの神経細胞における活動で表し、個々の神経細胞は多数の存在物の表現にかかわるものとするもの(分散表現)。

前者のアプローチでは、大脳皮質は100億個程度しか存在せず、たとえ細胞をすべて使っても森羅万象を表現するには明らかに不足で成り立たないのに対して、後者のアプローチでは、仮に細胞が二値しかとらないとしても最大2の100億乗が表せることになり、神経細胞の表現形態としては「分散表現」が行われているものと考えるのが妥当だとされている。

ここで、そのように人間の頭の情報が分散表現による特徴量で成り立っているとしたとき、その「特徴量」はどこから来るのか?についてヒントンは更に考察を進めている。まず一番シンプルな仮説は、DNA等に生まれつき刷り込まれていると言う「特徴量は生得的に指定されている」仮説だ。この仮説に関しては、DNAが保有できる情報の中に、シナプスが持つであろう10¹²ビットの情報(シナプス量は10¹⁴個ありそれらの中で1%を特徴量の認織に利用して細胞が2値しか取らないと仮定した時の数字)はとても収まらないことや、世界が変化するスピードは生得的に指定された情報だけでは十分に迅速に対応できないことからこの仮説は否定されるとしている。

次に「特徴量は学習により獲得された」とする仮説を考えた場合、この学習がどのようなメカニズムで行われたかを考えることが重要となる。ヒントンは当時最先端であった逆誤差伝搬法を用いた決定論的な順伝搬型ネットワークを考えた。この学習方法は大量のラベル付きデータを必要とする為、それらがが自然に与えられるというメカニズムが考えられず、妥当ではないと結論つけた。

次にヒントンは特徴量(へのラベル)をつける手段として、入力の全体もしくは一部を再構成したものをニューラルネットの出力とするものを検討した。これは静的なデータの場合は、深層自己符号化器 (DeepAutencode) に当たる。また動的なデータの場合は生成モデルとよばれる確率分布を用いたアルゴリズムの適応を検討した。これは当時”統計物理学と人工知能技術への応用“で述べている統計物理や量子力学の世界で考えられていた無向グラフィカルモデル(あるいはマルコフランダム場)と呼ばれるモデルで、物質の磁気スピンのインジングモデルの計算としても知られているものとなる。

このモデルでのアルゴリズムが物理学者のボルツマンに因んでボルツマンマシンとよばれる。これは下図のそれぞれ左側に示すような完全グラフ(ノードが全て繋がっているグラフ)の確率的なパラメータを計算することで、特定のノード間のつながり等を推定するものとなる。

ボルツマンマシン例(1)*1)

ボルツマンマシン例(2)*1)

このモデルの弱点は膨大な計算量が必要なことで、大規模なネットワークでは計算爆発が起こり、現在の計算機では計算困難であることにある。これらをそのまま計算する為のハードウェア的なアプローチが量子コンピューティングで、既存の計算機でも計算可能なようにグラフ構造に強い制約(隠れ変数と可視変数の2つの層構造とし、それぞれの層の中では関係を持たない)を与えたモデルが制約ボルツマンマシン(Restricted Boltzman Machine:RBM)、またそれらを並べたものをディープビリーフネットワーク(Deep Belief Network:DBN)となる。

制約ボルツマンマシン*1)

ディープビリーフネットワーク*1)

ヒントンの論文ではこれらRBMやDBNについての議論が行われ、これらのボルツマンマシンを使う事で「(ネッカーの立方体錯視で見られるような)多重安定性や、知覚的推論におけるトップダウン効果が見られる」と述べられている。これは単純な情報から複雑な特徴を抽出できる可能性がある事を述べているのではないかと思う。

*1)AI-MASTER WIKIより

Masao Watanabe

AIシステム設計・意思決定構造の設計を専門としています。
Ontology・DSL・Behavior Treeによる判断の外部化、マルチエージェント構築に取り組んでいます。

Specialized in AI system design and decision-making architecture.
Focused on externalizing decision logic using Ontology, DSL, and Behavior Trees, and building multi-agent systems.