保護中: オンライン予測でのエキスパート統合問題の概要とリグレット導入まで 推論技術:inference Technology Twitter Facebook はてブ Pocket LINE コピー 2023.05.23 2021.05.22 このコンテンツはパスワードで保護されています。閲覧するには以下にパスワードを入力してください。 パスワード: {{#message}}{{{message}}}{{/message}}{{^message}}送信は失敗しました。 サーバーから「{{status_text}}」というレスポンスがありました(コード: {{status_code}})。 このフォーム処理機能の開発者に連絡して、このメッセージを改善してください。 さらに詳しく{{/message}}{{#message}}{{{message}}}{{/message}}{{^message}}送信は成功したようです。 サーバーのレスポンスが OK でも、送信が処理されていない場合があります。 このフォーム処理機能の開発者に連絡して、このメッセージを改善してください。 さらに詳しく{{/message}}送信しています…
コメント
[…] またこの戦略を機械学習という観点で見ると、強化学習やオンライン予測の枠組みの中で考えることができる。実際に、以前述べたように強化学習は、データそのものの水準である「期待値基準」(可能性を列挙し、それらの確率を考え、さの確率を使って平均値を計算して決めるた値)に対して、「報酬」という言う概念を組み合わせた時の値を計算する「意思決定論」をベースにした期待値を考えるものであり、それらの報酬を考える際にゲーム理論(二人が行うゲームを考えた時、相手が何をしてくるか確実なことは分からないのだから、それを確定することをやめて、自分がある行動を選んだ際に最低でもどれくらいの利益が保証されるか(保証水準)をベースに戦略を考える)をベースにした「サベージ基準」を報酬の計算に用いるものとなる。 […]
[…] オンライン予測とは 概要とリグレット […]
[…] さまざまな意思決定問と逐次処理を組み合わせた機械学習のテクニックの一つであるオンライン予測技術の参考図書機械学習プロフェッショナルシリーズ「オンライン予測」より。前回はエキスパート統合問題について述べた。今回はオンライン凸最適化問題について述べる。 […]