
AIシステム設計・意思決定構造の設計を専門としています。
Ontology・DSL・Behavior Treeによる判断の外部化、マルチエージェント構築に取り組んでいます。
Specialized in AI system design and decision-making architecture.
Focused on externalizing decision logic using Ontology, DSL, and Behavior Trees, and building multi-agent systems.

コメント
[…] またこの戦略を機械学習という観点で見ると、強化学習やオンライン予測の枠組みの中で考えることができる。実際に、以前述べたように強化学習は、データそのものの水準である「期待値基準」(可能性を列挙し、それらの確率を考え、さの確率を使って平均値を計算して決めるた値)に対して、「報酬」という言う概念を組み合わせた時の値を計算する「意思決定論」をベースにした期待値を考えるものであり、それらの報酬を考える際にゲーム理論(二人が行うゲームを考えた時、相手が何をしてくるか確実なことは分からないのだから、それを確定することをやめて、自分がある行動を選んだ際に最低でもどれくらいの利益が保証されるか(保証水準)をベースに戦略を考える)をベースにした「サベージ基準」を報酬の計算に用いるものとなる。 […]
[…] 強化学習とは […]
[…] 強化学習とは […]