保護中: 探索と活用のトレードオフ解消-リグレットと確率的最適方策、ヒューリスティクス

このコンテンツはパスワードで保護されています。閲覧するには以下にパスワードを入力してください。

コメント

  1. […] 探索と活用のトレードオフ -リグレットと確率的最適方策、ヒューリスティクス […]

  2. […] 次回は探索と活用のトレードオフについて述べる。 […]

  3. […] 前回までで、環境が既知として、完全な情報のもとでの方策の決定(プランニング問題)について述べた。今回は、環境が未知であり、環境とエージェントの相互作用などによって得られたデータから方策を学習することについて述べる。ここで述べるモデルフリー型の強化学習は環境非同定型の強化学習と呼ばれ、環境を陽に推定せずに、方策を学習するアプローチとなる。 […]

タイトルとURLをコピーしました