強化学習 | ページ 2 | Deus Ex Machina

質問応答型学習の概要とアルゴリズム及び実装例について

質問応答型学習について質問応答型学習（Question Answering, QA）は、自然言語処理の一分野で、与えられた質問に対して適切な回答を生成するタスクとなる。QAシステムは、テキストデータや文書から情報を...

2024.11.27

アルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning

Self Refine "GPT-4以上？　自分で何度も“推敲”し完成度を上げる言語生成AI「Self-Refine」"では米カーネギーメロン大学、Allen Institute for Artificial Int...

2024.10.23

アルゴリズム:Algorithmsオントロジー強化学習機械学習:Machine Learning自然言語処理:Natural Language Processing

Generalized Advantage Estimation (GAE)の概要 Generalized Advantage Estimation (GAE)は、強化学習におけるポリシーの最適化に使われる手法の一...

2024.10.18

pythonアルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning

アドバンテージ学習の概要アドバンテージ学習（Advantage Learning）は、"Q-学習の概要とアルゴリズム及び実装例について"で述べているQ学習や"ポリシー勾配法の概要とアルゴリズム及び実装例"で述べて...

2024.10.11

pythonアルゴリズム:Algorithms強化学習

ポリシー勾配法の概要ポリシー勾配法（Policy Gradient Method）は、強化学習（Reinforcement Learning, RL）において、エージェントが直接ポリシー（行動選択の方針）を学習す...

2024.10.04

pythonアルゴリズム:Algorithms強化学習

価値勾配法の概要価値勾配法（Value Gradients）は、強化学習や最適化の文脈で使用される手法の一つであり、状態価値やアクション価値といった価値関数に基づいて勾配を計算し、その勾配を使って方策の最適化を行...

2024.09.20

pythonアルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning

カーリー・ウィンドウ探索（Curiosity-Driven Exploration）の概要カーリー・ウィンドウ探索（Curiosity-Driven Exploration）は、強化学習においてエージェントが興味...

2024.09.13

pythonアルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning

ACKTRの概要 ACKTR（Actor-Critic using Kronecker-factored Trust Region）は、強化学習のアルゴリズムの一つであり、"トラストリージョン法について"で述べてい...

2024.09.06

pythonアルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning

最適制御に基づく逆強化学習（Optimal Control-based Inverse Reinforcement Learning）の概要最適制御に基づく逆強化学習（Optimal Control-based ...

2024.08.30

pythonアルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning

最大エントロピー逆強化学習（Maximum Entropy Inverse Reinforcement Learning, MaxEnt IRL）の概要最大エントロピー逆強化学習（Maximum Entropy ...

2024.08.23

pythonアルゴリズム:Algorithms強化学習機械学習:Machine Learning深層学習:Deep Learning