保護中: プランニング問題(2)動的計画法の実装(価値反復法と方策反復法)

このコンテンツはパスワードで保護されています。閲覧するには以下にパスワードを入力してください。

コメント

  1. […] プランニング問題(2)-動的計画法の実装(価値反復法と方策反復法) […]

  2. […] 次回はプランニング問題の具体的なアルゴリズムについて述べる。 […]

  3. […] 前回は、エージェントと環境の相互作用などによるデータからの学習を想定せず、環境(マルコフ決定過程)が既知であると仮定して、最適な方策を求めるプランラング問題について述べた。今回は、実環境や環境シミュレーションなどで行動を入力し、報酬や次状態を観測することでデータを収集して、データから方策を学習する状況について述べる。 […]

モバイルバージョンを終了
タイトルとURLをコピーしました