深層学習:Deep Learning

python

Huggingfaceを使った文自動生成の概要

Huggingfaceについて Huggingfaceは、機械学習と自然言語処理(NLP)に関するオープンソースのプラットフォームとライブラリを提供している企業であり、Huggingfaceでは、”Transform...
python

Pythonによる機械学習とデータ分析の概要と代表的なライブラリの紹介

デジタルトランスフォーメーション(DX)、人工知能(AI)に活用されるPyhonを用いたデータ解析のライブラリ、参考図書に関する解説
アルゴリズム:Algorithms

保護中: 深層強化学習の研究動向:メタラーニングと転移学習、内発的動機づけとカリキュラムラーニング

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される深層強化学習の研究動向:メタラーニングと転移学習、内発的動機づけとカリキュラムラーニング(カリキュラムの自動生成、タスクの自動分解、タスクの難易度調整、内発的報酬、ロボットドメイン変換、シミュレータからの転移学習、BERT、Model-Agnostic Meta-Learning、Active Learning、Metric/Representation Base、Memory/Knowledge Base、Weigh Base、Learning to Optimize)
アルゴリズム:Algorithms

保護中: 深層強化学習の弱点である環境認識の改善の為の2つのアプローチの実装

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される深層強化学習の弱点である環境認識の改善の為の2つのアプローチの実装(逆予測型、制約型、表現学習、模倣学習、再構成型、予測型、WorldModels、遷移関数、報酬関数、表現学習、VAE、Vision Model、RNN、Memory RNN、モンテカルロ法、TD Search、モンテカルロ木探索、モデルベースの学習、Dyna、深層強化学習の弱点)
アルゴリズム:Algorithms

保護中: 深層強化学習の弱点と対策の概要と環境認識の改善の為の2つのアプローチ

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクにに活用される深層強化学習の弱点と対策の概要と環境認識改善のの2つのアプローチ(Mixture Density Network、RNN、Variational Auto Encoder、World Modles、表現学習、戦略ネットワーク圧縮、モデルフリー学習、Sample-Based Planning Model、Dyna、シミュレーションベース、サンプルベース、Gaussian Process、ニューラルネット、遷移関数、報酬関数、シミュレーター、学習能力、転移能力)
アルゴリズム:Algorithms

保護中: 深層強化学習における価値評価と戦略と弱点

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される深層強化学習における価値評価と戦略と弱点(サンプル効率の悪さ、手法の検証も難しさ、実装の仕方による性能への影響、ライブラリの初期値、再現性の低さ、過学習、局所最適、器用貧乏、TRPO、PPO、連続値コントロール、画像コントロール、Policyベース、Valueベース)
アルゴリズム:Algorithms

保護中: 強化学習のPolicy Gradient手法の改善であるTRPO/PPOとDPG/DDPG

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される強化学習のPolicy Gradient手法の改善であるTRPO/PPOとDPG/DDPG(Pendulum、Actor Critic、SequentialMemory、Adam、keras-rl、TD誤差、Deep Deterministic Policy Gradient、Deterministic Policy Gradient、Advanced Actor Critic、A2C、A3C、Proximal Policy Optimization、Trust Region Policy Optimization、Python)
アルゴリズム:Algorithms

保護中: 強化学習に対するニューラルネットワークの適用 戦略に深層学習を適用する:Advanced Actor Critic(A2C)

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される強化学習に対するニューラルネットワークの適用 戦略に深層学習を適用するAdvanced Actor Critic(A2C)の実装(Policy Gradient手法、Q-learning、Gumbel Max Trix、A3C(Asynchronous Advantage Actor Critic))
アルゴリズム:Algorithms

様々な強化学習技術の理論とアルゴリズムとpythonによる実装

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される様々な強化学習技術の理論とアルゴリズムとpythonによる実装(強化学習,オンライン学習,オンライン予測,深層学習,python,アルゴリズム,理論,実装)
python

保護中: 強化学習に対するニューラルネットワークの適用 価値評価に深層学習を適用するDeep Q-Network

デジタルトランスフォーメーション(DX)、人工知能(AI)、機械学習(ML)タスクに活用される強化学習に対するニューラルネットワークの適用 価値評価に深層学習を適用するDeep Q-Network(Prioritized Replay、Multi-step Learning、Distibutional RL、Noisy Nets、Double DQN、Dueling Network、Rainbow、GPU、Epsilon-Greedy法、optimizer、報酬のClipping、Fixed Target Q-Network、Experience Replay、平均二乗誤差、mean squared error、TD誤差、PyGame Learning Enviroment、PLE、OpenAI Gym、CNN)
タイトルとURLをコピーしました