保護中: 部分観測マルコフ決定過程(2)POMDPのプランニング

オンライン学習

2025.06.20 2022.02.02

コメント

オンライン学習とオンライン予測あるいは強化学習について | Deus Ex Machina より:

2022年2月2日 4:45 AM

[…] 部分観測マルコフ決定過程(2)POMDPのプランニング […]

返信
リスク考慮型強化学習法のためのさまざまなアプローチと実装 | Deus Ex Machina より:

2022年2月7日 4:41 AM

[…] 前回までは期待リターン(価値関数)の最大化問題もしくは期待コストの最小化問題として定式化した強化学習について述べていた。今回は強化学習の新展開としてリターン分布に基づく […]

返信
部分観測マルコフ決定過程を用いたよりフレキシブルな強化学習 | Deus Ex Machina より:

2022年6月20日 1:38 PM

[…] 次回はPOMDPへのプランニング法の適用について述べる。 […]

返信

タイトルとURLをコピーしました