保護中: プランニング問題(2)動的計画法の実装(価値反復法と方策反復法)

オンライン学習

2025.03.04 2022.01.18

AIシステム設計・意思決定構造の設計を専門としています。
Ontology・DSL・Behavior Treeによる判断の外部化、マルチエージェント構築に取り組んでいます。

Specialized in AI system design and decision-making architecture.
Focused on externalizing decision logic using Ontology, DSL, and Behavior Trees, and building multi-agent systems.

オンライン学習とオンライン予測あるいは強化学習について | Deus Ex Machina より:

2022年1月18日 4:15 AM

[…] プランニング問題(2)-動的計画法の実装(価値反復法と方策反復法) […]

返信
環境が既知の逐次的意思決定問題のプランニング問題による強化学習 | Deus Ex Machina より:

2022年1月18日 4:20 AM

[…] 次回はプランニング問題の具体的なアルゴリズムについて述べる。 […]

返信
リグレットと確率的最適方策、ヒューリスティクスを用いた強化学習 | Deus Ex Machina より:

2022年1月19日 4:00 AM

[…] 前回は、エージェントと環境の相互作用などによるデータからの学習を想定せず、環境(マルコフ決定過程)が既知であると仮定して、最適な方策を求めるプランラング問題について述べた。今回は、実環境や環境シミュレーションなどで行動を入力し、報酬や次状態を観測することでデータを収集して、データから方策を学習する状況について述べる。 […]

返信