強化学習

python

価値勾配法の概要とアルゴリズム及び実装例について

価値勾配法の概要 価値勾配法(Value Gradients)は、強化学習や最適化の文脈で使用される手法の一つであり、状態価値やアクション価値といった価値関数に基づいて勾配を計算し、その勾配を使って方策の最適化を行...
python

カーリー・ウィンドウ探索(Curiosity-Driven Exploration)の概要とアルゴリズム及び実装例について

カーリー・ウィンドウ探索(Curiosity-Driven Exploration)の概要 カーリー・ウィンドウ探索(Curiosity-Driven Exploration)は、強化学習においてエージェントが興味...
python

ACKTRの概要とアルゴリズム及び実装例について

ACKTRの概要 ACKTR(Actor-Critic using Kronecker-factored Trust Region)は、強化学習のアルゴリズムの一つであり、"トラストリージョン法について"で述べてい...
python

最適制御に基づく逆強化学習(Optimal Control-based Inverse Reinforcement Learning)の概要とアルゴリズム及び実装例について

最適制御に基づく逆強化学習(Optimal Control-based Inverse Reinforcement Learning)の概要 最適制御に基づく逆強化学習(Optimal Control-based ...
python

最大エントロピー逆強化学習(Maximum Entropy Inverse Reinforcement Learning, MaxEnt IRL)の概要とアルゴリズム及び実装例について

最大エントロピー逆強化学習(Maximum Entropy Inverse Reinforcement Learning, MaxEnt IRL)の概要 最大エントロピー逆強化学習(Maximum Entropy ...
python

逆強化学習の概要とアルゴリズム及び実装例について

逆強化学習の概要について 逆強化学習(Inverse Reinforcement Learning, IRL)は、強化学習の一種で、エキスパートの行動データからエキスパートの意思決定の背後にある報酬関数を学習するタ...
python

TD3 (Twin Delayed Deep Deterministic Policy Gradient)の概要とアルゴリズム及び実装例

TD3 (Twin Delayed Deep Deterministic Policy Gradient)の概要 TD3(Twin Delayed Deep Deterministic Policy Gradien...
python

Double Q-Learningの概要とアルゴリズム及び実装例について

Double Q-Learningの概要 Double Q-Learning(ダブルQ-ラーニング)は、"Q-学習の概要とアルゴリズム及び実装例について"で述べているQ-Learningの一種であり、強化学習のアル...
python

Trust Region Policy Optimization (TRPO)の概要とアルゴリズム及び実装例について

Trust Region Policy Optimization (TRPO)の概要 Trust Region Policy Optimization(TRPO)は、強化学習のアルゴリズムで、"ポリシー勾配法の概要...
python

ドリフト検出ベースの逆強化学習(Drift-based Inverse Reinforcement Learning)の概要とアルゴリズム及び実装例について

ドリフト検出ベースの逆強化学習(Drift-based Inverse Reinforcement Learning)の概要 ドリフト検出ベースの逆強化学習(Drift-based Inverse Reinforc...
タイトルとURLをコピーしました