保護中: 探索と活用のトレードオフ解消-リグレットと確率的最適方策、ヒューリスティクス オンライン学習 Twitter Facebook はてブ Pocket LINE コピー 2024.04.26 2022.01.19 このコンテンツはパスワードで保護されています。閲覧するには以下にパスワードを入力してください。 パスワード: {{#message}}{{{message}}}{{/message}}{{^message}}送信は失敗しました。 サーバーから「{{status_text}}」というレスポンスがありました(コード: {{status_code}})。 このフォーム処理機能の開発者に連絡して、このメッセージを改善してください。 さらに詳しく{{/message}}{{#message}}{{{message}}}{{/message}}{{^message}}送信は成功したようです。 サーバーのレスポンスが OK でも、送信が処理されていない場合があります。 このフォーム処理機能の開発者に連絡して、このメッセージを改善してください。 さらに詳しく{{/message}}送信しています…
コメント
[…] 探索と活用のトレードオフ -リグレットと確率的最適方策、ヒューリスティクス […]
[…] 次回は探索と活用のトレードオフについて述べる。 […]
[…] 前回までで、環境が既知として、完全な情報のもとでの方策の決定(プランニング問題)について述べた。今回は、環境が未知であり、環境とエージェントの相互作用などによって得られたデータから方策を学習することについて述べる。ここで述べるモデルフリー型の強化学習は環境非同定型の強化学習と呼ばれ、環境を陽に推定せずに、方策を学習するアプローチとなる。 […]