深層強化学習

保護中: 深層強化学習の研究動向:メタラーニングと転移学習、内発的動機づけとカリキュラムラーニング

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される深層強化学習の研究動向:メタラーニングと転移学習、内発的動機づけとカリキュラムラーニング(カリキュラムの自動生成、タスクの自動分解、タスクの難易度調整、内発的報酬、ロボットドメイン変換、シミュレータからの転移学習、BERT、Model-Agnostic Meta-Learning、Active Learning、Metric/Representation Base、Memory/Knowledge Base、Weigh Base、Learning to Optimize)

2023.05.11

アルゴリズム:Algorithmsグラフ理論スパースモデリング幾何学:Geometry強化学習微分積分:Calculus最適化:Optimization機械学習:Machine Learning深層学習:Deep Learning確率・統計:Probability and Statistics線形代数:Linear Algebra

保護中: 深層強化学習の弱点である環境認識の改善の為の2つのアプローチの実装

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される深層強化学習の弱点である環境認識の改善の為の2つのアプローチの実装(逆予測型、制約型、表現学習、模倣学習、再構成型、予測型、WorldModels、遷移関数、報酬関数、表現学習、VAE、Vision Model、RNN、Memory RNN、モンテカルロ法、TD Search、モンテカルロ木探索、モデルベースの学習、Dyna、深層強化学習の弱点)

2023.04.27

アルゴリズム:Algorithmsグラフ理論スパースモデリングマルチエージェントシステム幾何学:Geometry強化学習微分積分:Calculus数理論理学:Mathematical logic最適化:Optimization機械学習:Machine Learning深層学習:Deep Learning確率・統計:Probability and Statistics

保護中: 深層強化学習の弱点と対策の概要と環境認識の改善の為の2つのアプローチ

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクにに活用される深層強化学習の弱点と対策の概要と環境認識改善のの2つのアプローチ(Mixture Density Network、RNN、Variational Auto Encoder、World Modles、表現学習、戦略ネットワーク圧縮、モデルフリー学習、Sample-Based Planning Model、Dyna、シミュレーションベース、サンプルベース、Gaussian Process、ニューラルネット、遷移関数、報酬関数、シミュレーター、学習能力、転移能力)

2023.04.13

アルゴリズム:Algorithmsグラフ理論スパースモデリング幾何学:Geometry強化学習微分積分:Calculus最適化:Optimization機械学習:Machine Learning深層学習:Deep Learning確率・統計:Probability and Statistics線形代数:Linear Algebra

保護中: 深層強化学習における価値評価と戦略と弱点

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される深層強化学習における価値評価と戦略と弱点(サンプル効率の悪さ、手法の検証も難しさ、実装の仕方による性能への影響、ライブラリの初期値、再現性の低さ、過学習、局所最適、器用貧乏、TRPO、PPO、連続値コントロール、画像コントロール、Policyベース、Valueベース)

2023.03.30

アルゴリズム:Algorithmsグラフ理論スパースモデリング幾何学:Geometry強化学習微分積分:Calculus最適化:Optimization機械学習:Machine Learning深層学習:Deep Learning確率・統計:Probability and Statistics線形代数:Linear Algebra

保護中: モデルフリー強化学習のpythonによる実装(3)経験を価値評価、戦略どちらの更新に利用するか:ValueベースvsPolicyベース

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用されるモデルフリー強化学習のpythonによる実装ValueベースとPolicyベース(経験を価値評価、戦略どちらの更新に利用するか、Deep Q-Network、深層強化学習、Off-policy Actor Critic、Q-Learning、SARSA、Actor Critic法、Multi-step Learning、TD法、Monte Carlo法、TD(λ)法、Epsilon-Greedy法)

2022.12.02

pythonアルゴリズム:Algorithms強化学習微分積分:Calculus最適化:Optimization機械学習:Machine Learning確率・統計:Probability and Statistics

保護中: 強化学習の新展開(2)-深層学習を用いたアプローチ

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される深層強化学習を改善する7つの手法(初代のDQN,二重Q学習(二重DQN法),優先度付け経験再生,衝突Qネットワーク,分布強化学習(カテゴリDQN法)ノイズネットワーク,nステップ切断リターン)とアルファゼロについて

2022.02.07

オンライン学習強化学習微分積分:Calculus最適化:Optimization機械学習:Machine Learning深層学習:Deep Learning確率・統計:Probability and Statistics