強化学習 | ページ 3 | Deus Ex Machina

ポリシー勾配法の概要とアルゴリズム及び実装例

ポリシー勾配法の概要ポリシー勾配法（Policy Gradient Method）は、強化学習（Reinforcement Learning, RL）において、エージェントが直接ポリシー（行動選択の方針）を学習す...

2024.10.04

pythonアルゴリズム:Algorithms強化学習

価値勾配法の概要価値勾配法（Value Gradients）は、強化学習や最適化の文脈で使用される手法の一つであり、状態価値やアクション価値といった価値関数に基づいて勾配を計算し、その勾配を使って方策の最適化を行...

2024.09.20

pythonアルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning

カーリー・ウィンドウ探索（Curiosity-Driven Exploration）の概要カーリー・ウィンドウ探索（Curiosity-Driven Exploration）は、強化学習においてエージェントが興味...

2024.09.13

pythonアルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning

ACKTRの概要 ACKTR（Actor-Critic using Kronecker-factored Trust Region）は、強化学習のアルゴリズムの一つであり、"トラストリージョン法について"で述べてい...

2024.09.06

pythonアルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning

最適制御に基づく逆強化学習（Optimal Control-based Inverse Reinforcement Learning）の概要最適制御に基づく逆強化学習（Optimal Control-based ...

2024.08.30

pythonアルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning

最大エントロピー逆強化学習（Maximum Entropy Inverse Reinforcement Learning, MaxEnt IRL）の概要最大エントロピー逆強化学習（Maximum Entropy ...

2024.08.23

pythonアルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning

逆強化学習の概要について逆強化学習（Inverse Reinforcement Learning, IRL）は、強化学習の一種で、エキスパートの行動データからエキスパートの意思決定の背後にある報酬関数を学習するタ...

2024.08.16

pythonアルゴリズム:Algorithmsバンディッド問題強化学習機械学習:Machine Learning深層学習:Deep Learning

TD3 (Twin Delayed Deep Deterministic Policy Gradient)の概要 TD3（Twin Delayed Deep Deterministic Policy Gradien...

2024.08.09

pythonアルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning

Double Q-Learningの概要 Double Q-Learning（ダブルQ-ラーニング）は、"Q-学習の概要とアルゴリズム及び実装例について"で述べているQ-Learningの一種であり、強化学習のアル...

2024.08.02

pythonアルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning

Trust Region Policy Optimization (TRPO)の概要 Trust Region Policy Optimization（TRPO）は、強化学習のアルゴリズムで、"ポリシー勾配法の概要...

2024.07.26

pythonアルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning