深層学習:Deep Learning

アルゴリズム:Algorithms

保護中: 強化学習のPolicy Gradient手法の改善であるTRPO/PPOとDPG/DDPG

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される強化学習のPolicy Gradient手法の改善であるTRPO/PPOとDPG/DDPG(Pendulum、Actor Critic、SequentialMemory、Adam、keras-rl、TD誤差、Deep Deterministic Policy Gradient、Deterministic Policy Gradient、Advanced Actor Critic、A2C、A3C、Proximal Policy Optimization、Trust Region Policy Optimization、Python)
アルゴリズム:Algorithms

保護中: 強化学習に対するニューラルネットワークの適用 戦略に深層学習を適用する:Advanced Actor Critic(A2C)

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される強化学習に対するニューラルネットワークの適用 戦略に深層学習を適用するAdvanced Actor Critic(A2C)の実装(Policy Gradient手法、Q-learning、Gumbel Max Trix、A3C(Asynchronous Advantage Actor Critic))
アルゴリズム:Algorithms

様々な強化学習技術の理論とアルゴリズムとpythonによる実装

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される様々な強化学習技術の理論とアルゴリズムとpythonによる実装(強化学習,オンライン学習,オンライン予測,深層学習,python,アルゴリズム,理論,実装)
python

保護中: 強化学習に対するニューラルネットワークの適用 価値評価に深層学習を適用するDeep Q-Network

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される強化学習に対するニューラルネットワークの適用 価値評価に深層学習を適用するDeep Q-Network(Prioritized Replay、Multi-step Learning、Distibutional RL、Noisy Nets、Double DQN、Dueling Network、Rainbow、GPU、Epsilon-Greedy法、optimizer、報酬のClipping、Fixed Target Q-Network、Experience Replay、平均二乗誤差、mean squared error、TD誤差、PyGame Learning Enviroment、PLE、OpenAI Gym、CNN)
アルゴリズム:Algorithms

保護中: 機械学習の連続最適化としてのガウス・ニュートン法と自然勾配法

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される機械学習の連続最適化としてのガウス・ニュートン法と自然勾配法(シャーマン・モリソンの公式、1ランク更新、フィッシャー情報行列、正則条件、推定誤差、オンライン学習、自然勾配法、ニュートン法、探索方向、最急降下法、統計的漸近理論、パラメータ空間、幾何構造、ヘッセ行列、正定値性、ヘリンジャー距離、シュワルツの不等式、ユークリッド距離、統計学、レーベンバーグ・マーカート法、ガウス・ニュートン法、ウルフ条件)
アルゴリズム:Algorithms

保護中: 強化学習に対するニューラルネットワークの適用 価値評価をパラメータを持った関数で実装するValue Function Approximation

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される強化学習に対するニューラルネットワークの適用 価値評価をパラメータを持った関数で実装する例(CartPole、Q-table、TD誤差、パラメータ更新、Q-Learning、MLPRegressor、Python)
アルゴリズム:Algorithms

保護中: 強化学習に対するニューラルネットワークの適用(2)基本的なフレームワークの実装

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用されるニューラルネットワークによる強化学習の基本的フレームワークの実装(TensorBoard、Imageタブ、グラフィカル、リアルタイム、進捗状況確認、envのラッパー、Observer、Trainer、Logger、Agent、Experience Replay、episode、行動確率、policy、Epsilon-Greedy法、python)
python

保護中: 強化学習に対するニューラルネットワークの適用(1)概要

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される強化学習に対するニューラルネットワークの適用の概要(Agent、Epsilon-Greedy法、Trainer、Observer、Logger、確率的勾配降下法、Stochastic Gradient Descent、SGD、Adaptive Moment Estimation、Adam、Optimizer、誤差逆伝搬法、Backpropagation、勾配、活性化関数、バッチ法、価値関数、戦略)
アルゴリズム:Algorithms

保護中: ガウス過程による教師なし学習(2)ガウス過程潜在変数モデルの拡張

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される確率的生成モデルの応用であるガウス過程による教師なし学習としてのガウス過程潜在変数モデルの拡張(無限ワープ混合モデル、ガウス過程力学モデル、ポアソン点過程、対数ガウスCox過程、潜在ガウス過程、楕円スライスサンプリング)
アルゴリズム:Algorithms

Clojureを用いたニューラルネットと誤差逆伝播法の実装

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用されるClojureを用いたニューラルネットと誤差逆伝播法の実装
タイトルとURLをコピーしました