オンライン学習

オンライン学習

保護中: 強化学習の新展開(1)-リスク指標を用いた強化学習

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクのためのリスク考慮型強化学習法でのさまざまなアプローチ(正規過程TD学習、RDPS法)と実装(モンテカルロ法、解析的手法)
オンライン学習

保護中: 部分観測マルコフ決定過程(2)POMDPのプランニング

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクのための強化学習、部分観測マルコフ決定過程のプランニング方法による最適方策の獲得
オンライン学習

保護中: 部分観測マルコフ決定過程(1)POMDPと信念MDPについて

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される部分観測マルコフ決定過程(POMDP)を用いたよりフレキシブルな強化学習、信念MDP
オンライン学習

保護中: 関数近似を用いた強化学習(3)- 方策関数の関数近似

このコンテンツはパスワードで保護されています。閲覧するには以下にパスワードを入力してください。 パスワード:
オンライン学習

保護中: 関数近似を用いた強化学習(2)- 価値関数の関数近似(オンライン学習の場合)

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される膨大な状態数での強化学習に対応する関数近似オンライン手法の理論(勾配TD学習法、最小二乗法に基づく最小二乗TD学習(LSTD)法、GTD2法)とLASSOによる正則化
IOT技術:IOT Technology

保護中: モデルベース型の強化学習(スパースサンプリング、UCT、モンテカルロ探索木)

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用されるモデルベース型の強化学習(スパースサンプリング、UCT、モンテカルロ探索木)
IOT技術:IOT Technology

保護中: モデルフリー型の強化学習(2)- 方策反復法(Q学習法、SARSA、アクタークリック法)

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習タスクに活用されるモデルフリー型強化学習への価値反復法(Q学習法、SARSA法、アクター・クリティック法)
オンライン学習

保護中: モデルフリー型の強化学習(1)- 価値反復法(モンテカルロ法、TD法、TD(λ)法)

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習に活用されるモデルフリー型強化学習への価値反復法(モンテカルロ法、TD法、TD(λ)法)適用
オンライン学習

保護中: 探索と活用のトレードオフ解消-リグレットと確率的最適方策、ヒューリスティクス

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用されるリグレットと確率的最適方策、ヒューリスティクスを用いた強化学習(探索と活動のトレードオフ解消
オンライン学習

保護中: プランニング問題(2)動的計画法の実装(価値反復法と方策反復法)

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される強化学習としてのプランニング問題への動的計画法の実装(価値反復法と方策反復法)
タイトルとURLをコピーしました