保護中: モデルフリー型の強化学習(2)- 方策反復法(Q学習法、SARSA、アクタークリック法)

IOT技術:IOT Technology

2024.07.05 2022.01.21

コメント

オンライン学習とオンライン予測あるいは強化学習について | Deus Ex Machina より:

2022年1月21日 4:51 AM

[…] モデルフリー型の強化学習(2)– 方策反復法 […]

返信
モデルフリー型強化学習への価値反復法(TD法、TD(λ)法)適用 | Deus Ex Machina より:

2022年1月21日 4:55 AM

[…] 次回は主にベルマン最適作用素B*に基づく価値反復法を近似的に実行して、最適方策π*を学習することについて述べ、ベルマン行動作用素の標本近似を行い。さらにバッチ学習とオンライン学習としてQ学習法とSARSA法について述べる。 […]

返信
モデルベース型の強化学習(スパースサンプリング、UCT等) | Deus Ex Machina より:

2022年1月24日 4:31 AM

[…] 前回は環境を推定しないモデルフリー型の強化学習について述べた。今回は、環境モデルを陽に推定し、推定した環境モデルを用いて方策を求めるモデルベース型の強化学習について述べる。 […]

返信
マルコフ決定過程(MDP)の概要とアルゴリズム及び実装例について | Deus Ex Machina より:

2023年12月8日 4:10 AM

[…] 策評価と方策改善のステップを交互に繰り返し、最適な方策を収束させる。詳細は”モデルフリー型の強化学習(2)- 方策反復法(Q学習法、SARSA、アクタークリック法)“も参照のこと。 […]

返信

モバイルバージョンを終了

タイトルとURLをコピーしました