強化学習

python

A2C(Advantage Actor-Critic)の概要とアルゴリズム及び実装例について

A2C(Advantage Actor-Critic)の概要 A2C(Advantage Actor-Critic)は、強化学習のアルゴリズムの一つで、"方策勾配法の概要とアルゴリズム及び実装例について"で述べてい...
python

SARSAの概要とアルゴリズム及び実装系について

SARSAの概要 SARSA(State-Action-Reward-State-Action)は、強化学習における一種の制御アルゴリズムで、主にQ学習と同じくモデルフリーな手法に分類されたものとなる。SARSAは...
python

UCB(Upper Confidence Bound)アルゴリズムの概要と実装例

UCB(Upper Confidence Bound)アルゴリズムの概要 "ε-グリーディ法(ε-greedy)の概要とアルゴリズム及び実装例について"で述べているε-greedy法や"ボルツマン分布とソフトマック...
python

Thompson Samplingアルゴリズムの概要と実装例

Thompson Samplingアルゴリズムについて "UCB(Upper Confidence Bound)アルゴリズムの概要と実装例"で述べたUCBアルゴリズムは頻度論の考え方に基づき、各アームから得られた報...
python

マルコフ決定過程(MDP)の概要とアルゴリズム及び実装例について

マルコフ決定過程(MDP)の概要 マルコフ決定過程(MDP、Markov Decision Process)は、強化学習における数学的なフレームワークであり、エージェントが状態と行動に関連付けられた報酬を受け取る環...
python

モデル予測制御(Model Predictive Control, MPC)の概要とアルゴリズム及び実装例について

モデル予測制御(Model Predictive Control, MPC)の概要 モデル予測制御(Model Predictive Control, MPC)は、制御理論の一手法であり、制御対象のモデルを使用して将来の...
python

ε-グリーディ法(ε-greedy)の概要とアルゴリズム及び実装例について

ε-グリーディ法(ε-greedy)の概要 ε-グリーディ法(ε-greedy)は、強化学習などの探索と活用(exploitationとexploration)のトレードオフを取り扱うためのシンプルで効果的な戦略で...
python

Q-学習の概要とアルゴリズム及び実装例について

Q-学習について Q-学習(Q-Learning)は、強化学習の一種で、エージェントが未知の環境を探索しながら最適な行動を学習するためのアルゴリズムとなる。Q-学習は、エージェントが行動価値関数(Q関数)を学習し、...
アルゴリズム:Algorithms

強化学習は何故必要なのか?適用事例と技術課題及び解決のアプローチ

イントロダクション chatGPTで有名なOpenAIのもう一つの側面として強化学習がある。chatGPTのベースとなっている"GPTの概要とアルゴリズム及び実装例について"で述べているGPTの肝は"深層学習におけ...
アルゴリズム:Algorithms

強化学習技術の概要と各種実装について

強化学習技術の概要 強化学習(Reinforcement Learning)は、機械学習の一分野であり、エージェント(Agent)と呼ばれる学習システムが、環境との相互作用を通じて最適な行動を学習する手法となる。強...
モバイルバージョンを終了
タイトルとURLをコピーしました