保護中: 部分観測マルコフ決定過程(2)POMDPのプランニング

オンライン学習

2025.06.20 2022.02.02

AIシステム設計・意思決定構造の設計を専門としています。
Ontology・DSL・Behavior Treeによる判断の外部化、マルチエージェント構築に取り組んでいます。

Specialized in AI system design and decision-making architecture.
Focused on externalizing decision logic using Ontology, DSL, and Behavior Trees, and building multi-agent systems.

オンライン学習とオンライン予測あるいは強化学習について | Deus Ex Machina より:

2022年2月2日 4:45 AM

[…] 部分観測マルコフ決定過程(2)POMDPのプランニング […]

返信
リスク考慮型強化学習法のためのさまざまなアプローチと実装 | Deus Ex Machina より:

2022年2月7日 4:41 AM

[…] 前回までは期待リターン(価値関数)の最大化問題もしくは期待コストの最小化問題として定式化した強化学習について述べていた。今回は強化学習の新展開としてリターン分布に基づく […]

返信
部分観測マルコフ決定過程を用いたよりフレキシブルな強化学習 | Deus Ex Machina より:

2022年6月20日 1:38 PM

[…] 次回はPOMDPへのプランニング法の適用について述べる。 […]

返信