保護中: 強化学習のPolicy Gradient手法の改善であるTRPO/PPOとDPG/DDPG

アルゴリズム:Algorithms

2024.07.26 2023.03.16

AIシステム設計・意思決定構造の設計を専門としています。
Ontology・DSL・Behavior Treeによる判断の外部化、マルチエージェント構築に取り組んでいます。

Specialized in AI system design and decision-making architecture.
Focused on externalizing decision logic using Ontology, DSL, and Behavior Trees, and building multi-agent systems.

様々な強化学習技術の理論とアルゴリズムとpythonによる実装 | Deus Ex Machina より:

2023年8月9日 1:12 PM

[…] 強化学習のPolicy Gradient手法の改善であるTRPO/PPOとDPG/DDPG […]

返信