強化学習 | Deus Ex Machina

方策勾配法の概要とアルゴリズム及び実装例について

方策勾配法について方策勾配法（Policy Gradient Methods）は、強化学習の一種で、特に方策（ポリシー）の最適化に焦点を当てる手法となる。方策は、エージェントが状態に対してどのような行動を選択すべ...

pythonアルゴリズム:Algorithms強化学習微分積分:Calculus最適化:Optimization機械学習:Machine Learning深層学習:Deep Learning確率・統計:Probability and Statistics

Rainbowの概要 Rainbow（"Rainbow: Combining Improvements in Deep Reinforcement Learning"）は、深層強化学習の分野で重要な成果を収めた論文...

アルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning

Thompson Samplingアルゴリズムについて "UCB（Upper Confidence Bound）アルゴリズムの概要と実装例"で述べたUCBアルゴリズムは頻度論の考え方に基づき、各アームから得られた報...

pythonアルゴリズム:Algorithmsバンディッド問題強化学習機械学習:Machine Learning

UCB（Upper Confidence Bound）アルゴリズムの概要 "ε-グリーディ法（ε-greedy）の概要とアルゴリズム及び実装例について"で述べているε-greedy法や"ボルツマン分布とソフトマック...

pythonアルゴリズム:Algorithmsバンディッド問題強化学習機械学習:Machine Learning

SARSAの概要 SARSA（State-Action-Reward-State-Action）は、強化学習における一種の制御アルゴリズムで、主にQ学習と同じくモデルフリーな手法に分類されたものとなる。SARSAは...

pythonアルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning

A2C（Advantage Actor-Critic）の概要 A2C（Advantage Actor-Critic）は、強化学習のアルゴリズムの一つで、"方策勾配法の概要とアルゴリズム及び実装例について"で述べてい...

pythonアルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning

Q-学習について Q-学習（Q-Learning）は、強化学習の一種で、エージェントが未知の環境を探索しながら最適な行動を学習するためのアルゴリズムとなる。Q-学習は、エージェントが行動価値関数（Q関数）を学習し、...

pythonアルゴリズム:Algorithms強化学習微分積分:Calculus最適化:Optimization機械学習:Machine Learning深層学習:Deep Learning確率・統計:Probability and Statistics

ε-グリーディ法（ε-greedy）の概要 ε-グリーディ法（ε-greedy）は、強化学習などの探索と活用（exploitationとexploration）のトレードオフを取り扱うためのシンプルで効果的な戦略で...

pythonアルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning

モデル予測制御（Model Predictive Control, MPC）の概要モデル予測制御（Model Predictive Control, MPC）は、制御理論の一手法であり、制御対象のモデルを使用して将来の...

pythonアルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning

マルコフ決定過程(MDP)の概要マルコフ決定過程（MDP、Markov Decision Process）は、強化学習における数学的なフレームワークであり、エージェントが状態と行動に関連付けられた報酬を受け取る環...

pythonアルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning