保護中: 探索と活用のトレードオフ解消-リグレットと確率的最適方策、ヒューリスティクス オンライン学習 Twitter Facebook はてブ Pocket LINE コピー 2024.04.26 2022.01.19 このコンテンツはパスワードで保護されています。閲覧するには以下にパスワードを入力してください。 パスワード:
コメント
[…] 探索と活用のトレードオフ -リグレットと確率的最適方策、ヒューリスティクス […]
[…] 次回は探索と活用のトレードオフについて述べる。 […]
[…] 前回までで、環境が既知として、完全な情報のもとでの方策の決定(プランニング問題)について述べた。今回は、環境が未知であり、環境とエージェントの相互作用などによって得られたデータから方策を学習することについて述べる。ここで述べるモデルフリー型の強化学習は環境非同定型の強化学習と呼ばれ、環境を陽に推定せずに、方策を学習するアプローチとなる。 […]