強化学習、オンライン予測、株式自動売買などに用いられる数理的な意思決定技術。

デジタルトランスフォーメーション技術人工知能技術禅と人工知能機械学習における数学機械学習技術確率的生成モデル統計的因果推論/探索強化学習技術バンディット問題本ブログのナビ

意思決定の理論

人々が情報を収集し、選択肢を評価し、最適な選択をするプロセスを研究する学問分野として意思決定理論がある。意思決定は、日常生活やビジネス、政治などのさまざまな領域で行われており、意思決定理論はこれを科学的に分析し、理論的な枠組みを提供する。

意思決定理論の中心的な概念の一つは、ユーティリティという概念になる。ユーティリティは、人々の選択肢に対する選好や満足度を数値化したものであり、人々が異なる選択肢を比較し、最適な選択をするための基準となる。意思決定理論は、人々のユーティリティ関数をモデル化し、最適な選択を導き出すための方法を研究している。

また、意思決定理論は、リスクや不確実性を考慮することも重要な要素として扱う。人々が意思決定をする際には、不確実性やリスクが存在し、将来の結果を予測することが困難な場合がある。意思決定理論は、このような不確実性やリスクをどのように考慮し、最適な選択をするかを研究している。例えば、期待効用理論は、リスクを数値化して意思決定を行う方法の一つとなる。

さらに、意思決定理論は、人々の認知的なプロセスや心理的な傾向を考慮することもある。人々は情報処理の際にバイアスや制約を持ち込むため、意思決定が合理的に行われるとは限らない。例えば、確証バイアスと呼ばれる傾向は、人々が既存の信念を補強し、新たな情報を無視する傾向を示す。意思決定理論は、このような心理的な要因を考慮して、実際の意思決定を分析する。

意思決定のアルゴリズム

そのような意思決定理論に基づき、特定の決定問題に対して、合理的な選択をするための手続きとして様々な「決断のアルゴリズム」がある。それらには以下に示すようなものがある。

最適化アルゴリズム: 最適化アルゴリズムは、与えられた目的や制約の下で最適な解を見つけるためのアルゴリズムであり、例えば、”線形計画法の概要とアルゴリズム及び実装例について“で述べている線形計画法や整数計画法などがある。そのような最適化アルゴリズムを用いることで、複数の選択肢の中から最適な選択をすることができる。
決定木アルゴリズム: 決定木アルゴリズムは、木構造を用いて複数の選択肢の中から最適な選択をするためのアルゴリズムとなる。具体的には、決定木、ランダムフォレスト、勾配ブースティングなどがある。例えば決定木アルゴリズムを用いることで、複雑な決定を階層的に行い、結果を解釈しやすい形で得ることができる。
ベイズ決定理論: ベイズ決定理論は、確率論を用いて不確実性を考慮しながら最適な選択をするためのアルゴリズムとなる。このベイズ定理を応用して、事前情報や観測データを組み込みながら、最適な決定を導き出すことができる。
制約充足問題のアルゴリズム: 制約充足問題のアルゴリズムは、与えられた制約条件の下で解を見つけるためのアルゴリズムとなる。例えば、人工知能の分野で広く用いられる制約充足問題のアルゴリズムには、バックトラック法や制約プログラミングなどがあり、それらを用いることで最適な解の組み合わせを得ることができる。
ヒューリスティクスアルゴリズム:ヒューリスティクスアルゴリズムは、問題を解決するための経験的なルールや方法論をもとにしたアルゴリズムとなる。

数学的決断の技術やさしい確率で「たった一つ」の正解を導く方法

今回はこれらの問題解決のためのアルゴリズムについて述べられている「数学的決断の技術やさしい確率で「たった一つ」の正解を導く方法」をベースに述べたいと思う。

まず例題として来週ある日に公園の露店で何かの商売をすることを仮定し、その商売はA,B,C,Dの有種類あるとするそれぞれの商売の一日の売り上げは、その日の天候に左右される。それを示した表が以下になる。

数学的決断の技術より抜粋

ここで「最低でもいくらの利益があるか」に拘った戦略だと利益が0円のものが一つもない商売Aになる。これは専門的には「マックスミン基準」と呼ばれる。(最低の利益(min)を最大(max)にする)

次に全ての商売の期待値をそれぞれ求めると、A:2×1/4+2×1/4+1×1/4+1×1/4=1.5、B:3×1/4+3×1/4+1×1/4=7/4=1.75、C:2×1/4+4×1/4=6/4=1.5、D:1×1/4+5×1/4=6/4=1.5となりBの期待値が最も高くなる。これを選ぶ方法は「期待値基準」と呼ばれる。

さらに可能な中で最大の利益に注目するとDの曇りの日の5万円となるので、これを選ぶ方法を「マックスマックス基準」(最大値maxを最大化(max)する)と呼び

最後の方式は最も後悔をする事を少なくするので、Aを選んだとき、晴れの日であればBを選んだ方が3万円と高く(2-3=-1万円の機会損失)、曇りの日であればDを選んだ方が高く(2-5=-3万円の機会損失)、雨の日であれば(1-0=1万円の機会損失(1万円の利益))、雪の日であれば(1-1=0万円)となりこれら最大値は3万円の機会損失となる。同様にBを選んだ時は2万円、Cを選んだ時は2万円、そしてCを選ぶと1万円となり、Cを選ぶ時が一番後悔が少ないこととなり、「最大機会損失・最小化基準(サーベージ基準)」と呼ばれる。

一般的な集団では、この4つの中で「マックスミン基準」を選ぶ人が7割、「期待値基準」を選ぶ人が3割で、その他の二つを選ぶ人はほとんどいないとのことである。このことは「多くの人は慎重に判断を下す」ということを物語っている。「マックスミン基準」を選ぶ人は最悪のケースを気にする人であり、「期待値基準」を選ぶ人は最良のケースでなく平均を気にする、つまり全体に目配せをしている人であると言うことも言える。

ここで判断を行う集団に偏り、例えばジャーナリストの集団だと、「マックスマックス基準」を選ぶ人が多くなるらしい。ジャーナリストはある意味で「楽天的」でギャンブル思考が強いため、普通の人が気にする「最悪の結果」ではなく「うまい話」に重きを置く人であると言うことが言えるとのこと。

「期待値基準」はざっくり言うと「可能性を列挙し、それらの確率を考え、さの確率を使って平均値を計算して決めるた値」と言うことができる。ここで現れる確率としては、厳密に可能性を定義できる「数学的確率」や、過去に起きたことをベースに確率を割り当てた「統計的確率」、客観的なデータや実験に裏付けられず、人の思い込みに依存した「主観確率」等様々なものが想定できる。この確率は後者に行くほどに厳密性が損なわれ、最後の主観確率になると単に「可能性のイメージ」になってしまう。

この主観確率の歴史は古く、20世紀半ばに、サベージという統計学者により「人々の行動選択が、ある1セットのルールを満たしているなら、その人の行動は数学的確率によって決定された行動と一致する」ということを証明することで正当化された。

このサベッジのルールは、例えばクジ甲とクジ乙があったとして、クジ甲もクジ乙もステイト「雨」とステイと「雪」が起きた時の賞金は同じで、ステイト「晴れ」の場合はクジ甲では10万円で、クジ乙では5万円の賞金とし、ステイト「曇り」が起きた時にはその逆となるとした時、このクジのうち甲を好んでいたとする。

この時「晴れ」と「曇り」の場合の賞金をそのまま固定し、「雨」と「雪」の場合の賞金を、甲乙が同じであるということを保存して新しいクジ甲’、乙’を作る。こうして作った新しいクジについても当初のこのみは逆転せず、甲’を乙’より好むというものになる。これがサベージの与えた代表的なルール(sure-thing principle)となる。

このサベッジの与えた確率理論は「ベイジアン理論」と呼ばれ確率理論や統計学に新風を与えた。この主観確率の使い方としては2通りのものがある。一つは実際の出来事に対して主観確率を割り当て、それを参考に行動を起こすもの、もう一つは自分と利害関係のある人物がどのような主観確率の割り当てを行なっているかを見破り、それを逆手にとって自分の行動を決めるというものとなる。

この主観確率は、そもそも「主観」であるので細かい数字にはそれほど意味はない。大事なのは「ある出来事より起こりやすい」という「大小関係」と「ある出来事と同じくらい起きやすい」という「対等性」になる。これは例えば競馬において「馬Aが3着までに入る可能性は、入らない可能性より大きい」と考えるなら「馬Aが3着までに入る確率」に対して0.5より大きな数字割り振るのと同じで、絶対的な数字ではなく、大小関係が重要なものになる。

このようにデータの得られない出来事の予測に主観確率を用いるケースでは、様々な状態に対して、自分の経験や論理による「起きやすさの比較検討」を行なったすえ、それらの大小関係や等号関係を満たすような大きかな数値を割り振れば良いことになる。

この大小関係や対等性が不確実なものとしてさらに推論を行う手法もある。一つは1980年台にディビッド・シュマイドラーとイツァーク・ギルボアに提案された「複数信念(multiple prior)」(一つの確定的な大小関係や等号関係を想定するのではなく複数の可能性(確率)を想定する確率理論)で、もう一つは1920年代にフランク・ナイトにより提唱された、想定外の出来事が人々を動かすという「サプライズ」をベースとした手法となる。

これらの手法は現代の高速株式取引のアルゴリズムの中にも組み込まれ実用化されている。

またこの戦略を機械学習という観点で見ると、強化学習やオンライン予測の枠組みの中で考えることができる。実際に、以前述べたように強化学習は、データそのものの水準である「期待値基準」(可能性を列挙し、それらの確率を考え、さの確率を使って平均値を計算して決めるた値)に対して、「報酬」という言う概念を組み合わせた時の値を計算する「意思決定論」をベースにした期待値を考えるものであり、それらの報酬を考える際にゲーム理論(二人が行うゲームを考えた時、相手が何をしてくるか確実なことは分からないのだから、それを確定することをやめて、自分がある行動を選んだ際に最低でもどれくらいの利益が保証されるか(保証水準)をベースに戦略を考える)をベースにした「サベージ基準」を報酬の計算に用いるものとなる。

Deux Ex Machina

AIシステム設計・意思決定構造の設計を専門としています。
Ontology・DSL・Behavior Treeによる判断の外部化、マルチエージェント構築に取り組んでいます。

Specialized in AI system design and decision-making architecture.
Focused on externalizing decision logic using Ontology, DSL, and Behavior Trees, and building multi-agent systems.

意思決定の理論

意思決定のアルゴリズム

数学的決断の技術 やさしい確率で「たった一つ」の正解を導く方法

数学的決断の技術やさしい確率で「たった一つ」の正解を導く方法