保護中: プランニング問題(2)動的計画法の実装(価値反復法と方策反復法) オンライン学習 Twitter Facebook はてブ Pocket LINE コピー 2024.04.26 2022.01.18 このコンテンツはパスワードで保護されています。閲覧するには以下にパスワードを入力してください。 パスワード:
コメント
[…] プランニング問題(2)-動的計画法の実装(価値反復法と方策反復法) […]
[…] 次回はプランニング問題の具体的なアルゴリズムについて述べる。 […]
[…] 前回は、エージェントと環境の相互作用などによるデータからの学習を想定せず、環境(マルコフ決定過程)が既知であると仮定して、最適な方策を求めるプランラング問題について述べた。今回は、実環境や環境シミュレーションなどで行動を入力し、報酬や次状態を観測することでデータを収集して、データから方策を学習する状況について述べる。 […]