強化学習は何故必要なのか?適用事例と技術課題及び解決のアプローチ

機械学習技術人工知能技術デジタルトランスフォーメーションセンサーデータ/IOT技術オンライン学習深層学習技術確率生成モデル強化学習技術 python 経済とビジネス本ブログのナビ

イントロダクション

chatGPTで有名なOpenAIのもう一つの側面として強化学習がある。chatGPTのベースとなっている“GPTの概要とアルゴリズム及び実装例について“で述べているGPTの肝は”深層学習におけるattentionについて“で述べたattentionをベースとした”Transformerモデルの概要とアルゴリズム及び実装例について“でも述べているtransformerと、強化学習による深層学習モデルの改善にあると言われている。深層学習と聞くと、AlphaGoに代表されるゲームへの適用か、車の自動運転への適用がすぐイメージされるが、今回は強化学習に対してもう少し深掘りした検討を行う。

強化学習が必要なケースとはどのようなものか?

強化学習は、以下のようなケースで特に有用となると考えられている。

<試行錯誤が必要な場面>

問題の解決方法や最適な行動が事前にわからない場合、エージェントは試行錯誤を通じて学習する必要がある。強化学習は、エージェントが環境と相互作用しながら最適な行動方針を見つけるための手法であり、その様なケースに最適なアプローチとなる。以下に試行錯誤が必要な具体的例を述べる。

ゲームプレイ: ゲームにおいて、最適なプレイ戦略が事前にわからない場合、エージェントは試行錯誤を通じて最適な行動を学習する。AlphaGoやDota 2のAI(人間対抗のプロプレイヤーと戦うAI)などがその例となる。
ロボティクス: ロボットの操作や制御は、現実の環境での試行錯誤を通じて学習する必要がある。ロボットアームの操作や自己運転車の運転など、複雑な状況での最適な行動を学習するために強化学習が使用される。
化学反応の最適化: 化学プロセスにおいて、最適な条件や反応経路が事前にわからない場合、強化学習を使用して最適な実験条件や反応経路を探索することがある。
医療治療計画: がん治療や薬剤投与のような複雑な医療治療計画は、患者ごとに最適なスケジュールを見つけるために試行錯誤が必要となる。強化学習を使用して、治療のタイミングや量を最適化することが検討されている。
トラフィック信号の最適化: 都市の交通システムにおいて、トラフィック信号の制御が試行錯誤を通じて最適化される必要がある。交通システムには様々な複雑なパラメータが関与しており、それらを最適化して交通量や混雑状況に応じて信号のタイミングを調整するために強化学習が利用されます。
エネルギー管理: 発電所や電力ネットワークにおいて、電力ネットワークの複雑なパラメータを最適化して電力の供給と需要を調整し、エネルギーの効率的な利用を最適化するために強化学習が使用されます。

これらの事例では、最適な行動が問題の性質や状況によって異なり、その結果複雑な状況になり、事前の知識や分析的なアプローチ(一般的な機械学習が得意な静的で比較的シンプルな状況での学習)での解決が難しい場面がある。こうした試行錯誤が必要なケースにおいて、エージェントが環境と相互作用しながら学習するものが強化学習となる。

<リアルタイムの意思決定が求められる場面>

強化学習は、エージェントが環境とリアルタイムで相互作用しながら意思決定を行うための能力を開発する手法となる。以下に具体的な事例について述べる。

自動運転: 自動運転車は、道路上の状況や障害物に即座に対応して安全に運転する必要があり、強化学習を用いて、リアルタイムに最適な運転行動を決定する自動運転システムが開発されている。
ロボティクス: ロボットが変動する環境で操作や移動を行う場合、リアルタイムの意思決定が必要であり、例えば、倉庫内での自律的な移動や危険な場面での避難行動などが強化学習により実現されている。
フィンテック: 金融取引や投資の場面では、市場の状況や変動に迅速に対応して最適な取引戦略を立てる必要があり、強化学習を使用して、リアルタイムの市場データを元に取引の意思決定を行うアルゴリズムが構築されている。
ネットワーク管理: コンピュータネットワークや通信ネットワークの管理において、トラフィック制御やリソースの最適化などがリアルタイムで行われる必要がある。強化学習を使用して、ネットワークの状況に合わせた最適な制御を実現する取り組みが行われている。
エネルギー制御: 電力ネットワークやスマートグリッドの管理において、電力供給と需要をリアルタイムで調整し、エネルギーの効率的な利用を実現する必要がある。強化学習を使用して、電力供給の最適制御を行う取り組みが行われている。スマートグリッドの詳細は”電力貯蔵技術とスマートグリッドとGNN“も参照のこと。

これらの事例のように、状況が迅速に変化し、即座の意思決定が求められるため、事前の計画や静的なアプローチでは対応が難しい場合において、強化学習が、エージェントがリアルタイムに環境との相互作用を通じて学習し、適切な行動を即座に選択する能力を提供している。

<長期的な報酬を最大化する場面>

強化学習の目標は、エージェントが長期的に報酬を最大化する行動方針を学習することとなる。このようなケースでは、短期的な損失やコストよりも長期的な報酬を重視する必要がある。以下に具体的な事例について述べる。

資源管理: 自然資源の最適な利用や保護において、長期的な報酬を最大化するための意思決定が重要となる。森林の持続可能な伐採、水資源の適切な利用などがその一例です。
環境保護: 環境問題に対処するために、排出量削減や再生可能エネルギーの導入など、長期的な視点での意思決定が必要となる。強化学習を用いて、環境への影響を最小化しながら報酬を最大化する戦略を見つけるアプローチが取られている。
医療治療計画: 医療分野では、がん治療や慢性疾患の管理など、長期的な視点で患者の健康を最大化する治療計画が求められ、強化学習を用いて、複数の治療オプションを考慮し、最適な治療プランを提案する取り組みが行われている。
投資ポートフォリオの最適化: 投資家は、リスクとリターンのバランスを考慮しながら、長期的な資産ポートフォリオを構築する必要があり、強化学習を使用して、市場の変動を考慮した最適な投資戦略を見つける取り組みが行われている。
交通流最適化: 都市の交通システムにおいて、長期的な交通流の最適化が求められ、信号制御や交通ルートの計画において、渋滞を軽減し効率的な移動を実現するために強化学習が活用されている。

これらの事例では、一時的な利益や損失だけでなく、長期的な結果や影響を考慮することが重要となっている。強化学習は、長期的な報酬を最大化するための適切な戦略や意思決定を学習する手法として、持続可能な開発や効率的なリソース利用などの課題に対して貢献している。

<不確実性が高い状況>

不確実性が高く、環境が複雑で変動する場面で強化学習は有用となる。このような状況では、人間の専門知識だけでは適切な行動を決定するのが難しいため、エージェントが経験を通じて適応する能力が求められる。以下にそれらの具体的例を示す。

気象予測: 天候や気象条件は複雑で変動が大きいため、気象予測は不確実性が高い課題でとなる。農業やエネルギー供給など、気象条件に左右される分野で、強化学習を用いて最適な対応策を見つける研究が行われている。
ロボティクス: ロボットが未知の環境で作業を行う際、環境の変動や障害物の発生に対応する能力が求められる。強化学習を用いて、環境の変動に適応しながら最適な行動を選択するロボット制御が研究されている。
金融市場予測: 金融市場は不確実性が高く、様々な要因によって価格やトレンドが変動する。強化学習を用いて、市場の変動を予測し、最適な取引戦略を決定するアルゴリズムの開発が進められている。
自然災害対応: 地震や洪水などの自然災害の発生時に、迅速な対応と避難計画の策定が求められている。強化学習を用いて、異なる災害シナリオに適応する避難戦略を学習するアプローチが研究されている。
医療診断: 医療診断において、患者の状態や病気の進行は個人差や不確実性がある。強化学習を用いて、適切な検査や治療プランを選択するための意思決定支援が検討されている。

これらの事例では、環境が複雑で変動し、不確実性が高いため、従来のアルゴリズムや静的な手法では対応が難しい場合がある。強化学習は、エージェントが現実の状況に適応しながら学習する能力を提供し、不確実性の高い環境での適切な行動を見つける手法として有効なアプローチとなる。

<人間の専門家の知識の限界がある場面>

人間の専門家の知識が限られている場合や、問題が複雑すぎて解析的な解法が難しい場合にも強化学習が役立つ。エージェントは経験を通じて問題を理解し、適切な行動を学習することができる。具体的な事例としては以下のようなものがある。

ゲームプレイ: 複雑なゲームにおいて、人間の専門家の知識やプレイの経験だけでは最適な戦略を見つけるのが難しい場合がある。強化学習を使用して、ゲーム内の状況や相手の行動に適応する最適な戦術を学習するAIエージェントが開発されている。
薬剤設計: 医薬品の設計や新たな化合物の発見は、複雑な分子の相互作用を理解する知識が必要となる。しかし、すべての可能な組み合わせを試すのは困難であり、強化学習を用いて、化合物の性質や効果を予測し、有望な薬剤を探索する研究が行われている。
環境モニタリング: 遠隔地での環境モニタリングや生態系の調査は、専門家がすべての情報を収集することが難しい場合がある。ロボットやセンサーを用いてデータを収集し、強化学習を使用して環境の変化を解析するアプローチが採用されている。
物流管理: 複雑な物流ネットワークや供給チェーンにおいて、適切なルートや配送スケジュールを専門家が計画するのは難しい場合がある。強化学習を使用して、リアルタイムの情報に基づいて最適な物流戦略を決定するシステムが研究されている。
自律ロボット: ロボットの自律的な行動や対話は、複雑な環境での適切な行動を専門家が事前に指示するのが難しい場合がある。強化学習を使用して、ロボットが環境と相互作用しながら学習し、適切な行動を選択する能力を獲得する研究が行われている。

これらの事例では、問題が複雑で専門家の知識だけでは解決が難しいため、エージェントが経験を通じて適応する能力が求められている。強化学習は、人間の知識だけではカバーできない状況において、最適な行動を学習するための強力な手段として活用されている。

<まとめ>

これらをまとめると、強化学習は未知の状況や複雑な問題、あるいは長期的な視点に則した問題に対して適応力のある学習手法として有用であるということができる。このような問題に対しては、一般的な機械学習での静的なデータセットからパターンや関係性を学習するアプローチでは解決することができない。このように自律的な意思決定を行うシステムやエージェントの開発、または最適化問題の解決において、強化学習の利用が必要とされるケースが多く存在していると言える。

何故強化学習は上記の課題に対して有用なアプローチとなるのか

強化学習が、未知の状況や複雑な問題、そして長期的な視点に則した問題に対して適応力のある学習手法として有用な理由として以下が挙げられる。

試行錯誤を通じた学習: 強化学習は、エージェントが環境と相互作用しながら試行錯誤を繰り返すことによって学習する。このため、事前の知識が限られている未知の状況でも、エージェントは実際の経験を通じて適切な行動を学習することができる。
長期的な報酬を最大化: 強化学習の目標は、長期的な報酬を最大化する最適な行動方針を学習するものとなる。これにより、短期的な利益だけでなく、長期的な視点での最適な戦略を見つけることが可能となる。
環境の変動に対応: 強化学習は、エージェントが現実の環境と相互作用しながら学習するため、環境の変動や不確実性に対応する能力がある。これにより、複雑な状況や変動する問題にも適応できる。
人間の専門知識の限界の克服: 人間の専門家の知識が限られている場合や、問題が複雑すぎて解析的な解法が難しい場面でも、強化学習は経験を通じて適切な行動を学習するための手段となる。
探索と利用のバランス: 強化学習は、探索（未知の行動を試すこと）と利用（過去の経験に基づく確立された行動）のバランスを取ることで、最適な行動を見つける。これにより、未知の状況でも新たな情報を収集しながら最適化を進めることが可能となる。

強化学習技術の課題

このように強化学習は非常に有用な手法だが、いくつかの課題も存在している。以下に、強化学習技術に関連する主な課題について述べる。

サンプル効率の問題: 強化学習は試行錯誤を通じて学習する手法であり、エージェントが多くのエピソード(試行)を経験することが重要となる。しかし、実際の環境で試行することがコストや時間の面で難しい場合、学習に必要なデータ収集が難しくなる問題がある。
探索と活用のトレードオフ: 強化学習では、新たな行動を探索して新しい情報を収集しながら、過去の経験に基づいて最適な行動を選択する必要がある。この探索と利用のバランスを取ることが難しく、探索が十分でないと局所的な最適解に陥る可能性がある。
報酬の設計: 強化学習の成功には、適切な報酬関数の設計が重要となる。報酬関数が誤って設計されると、望まない行動を取るなど、学習の収束が困難になることがある。適切な報酬関数を設計することは、実際には難しい場合もある。
状態空間の複雑さ: 状態空間が非常に複雑で高次元である場合、学習が難しくなることがある。高次元の状態空間では、エージェントが十分なデータを収集するのが難しく、適切な行動を学習するのが困難になることがある。
サンプリングバイアス: エージェントが収集したデータに偏りがある場合、学習結果も偏ったものとなる可能性がある。このため、適切なデータ収集の方法やバイアスの除去手法が求められている。
適応性の制約: 強化学習は経験に基づいて学習する手法だが、現実世界では環境が変化することがある。エージェントが新たな状況に適応する能力が限られる場合、効果的な学習が難しくなることがある。

以下にそれぞれの課題に対するアプローチについて述べる。

強化学習の課題に対するアプローチについて

これら強化学習の課題に対するアプローチとして以下の様なものが検討されている。

サンプル効率の問題へのアプローチ: “深層強化学習の弱点と対策の概要と環境認識の改善の為の2つのアプローチ“でも述べている様にサンプル効率の問題に対しては以下の様に分類される。
- モデルが原因
  - 学習能力: 与えられたデータから効率的に学習する能力のことで、モデルの工夫以外に、Experience Replayのような学習データのサンプリング法、最適化方法など、さまざまな工夫がある。
  - 転移能力: 学習済みの内容を活かして短時間で学習する能力のことで、学習内容はモデルの中に蓄積することもあれば、他のモデルから取得することもある。
- データが原因
  - 環境側の観点(環境認識の改善): 環境から得られる情報をエージェントにとってわかりやすく(=学習しやすく)する手法となる。具体的には、環境から得られる状態・報酬を学習しやすいよう加工するもので、”モデルベースアプローチによる強化学習の概要とpythonでの実装“で述べているモデルベースのアプローチ(環境(遷移関数/報酬関数)をモデル化する)や、”深層強化学習の弱点と対策の概要と環境認識の改善の為の2つのアプローチ“で述べている表現学習のアプローチ(状態や状態関数の特徴を捉えたベクトル(表現)を新たな「状態」として作成する)などがある。環境内のシミュレーションを用いて事前学習を行い、実際の環境での学習を効率化するアプローチもこのアプローチとなる。
  - エージェント側の観点(探索行動の改善): エージェントが学習効果が高いサンプルを取得できるようにする手法となる。“Rainbowの概要とアルゴリズム及び実装例について“で述べたRainbowのNoisy Nets(どの程度探索を行うか学習させる手法)や、”深層強化学習の研究動向:メタラーニングと転移学習、内発的動機づけとカリキュラムラーニング“で述べたエージェントが未知の状態へ積極的に遷移するように動機づける内発的報酬/内発的動機づけ(Intrinsic Reward/Intrinsic Motivation)という手法がある。
  - 学習させる側の観点: 外からの働きかけでエージェントの学習を促進する方法となる。手法としてはカリキュラムラーニングと模倣学習がある。
    - カリキュラムラーニング: “深層強化学習の研究動向:メタラーニングと転移学習、内発的動機づけとカリキュラムラーニング“でカリキュラムラーニングは、エージェントが学習する順序や難易度を適応的に調整する手法となる。
      - Bonsai: Bonsaiは、強化学習をベースにしたカリキュラムラーニングのプラットフォームであり、カリキュラムデザイン、エキスパートデモンストレーション、イテレーションと進化、デバッグと可視化をサポートしている。詳細は”強化学習の活用領域(1)行動の最適化“を参照のこと。
    - 模倣学習: “深層強化学習の弱点の克服局所最適な行動/過学習への対応(1)模倣学習“で述べた学習サンプル(お手本)を与える模倣学習という手法がある。詳細は報酬の設計のアプローチにて述べている。
探索と活用のトレードオフへのアプローチ: “探索と活用のトレードオフ解消-リグレットと確率的最適方策、ヒューリスティクス“で述べている様に探索と活用のトレードオフに関する評価指標としては「リグレット」と「サンプル複雑度」がある。「リグレット」は環境と相互作用しながら方策を学習する強化学習アルゴリズムを探索と活用の双方を加味して評価する指標であり、小さいリグレットのオーダーを達成できるアルゴリズムほど、(リグレットの観点で)よいアルゴリズムであるといえるものとなる。「サンプル複雑度」は間違った方策を採用した回数に対応するもので、アルゴリズムが活用側に偏りすぎて探索が不十分で間違った方策を採用し続けたり、探索を永遠に続けたりするとサンプル複雑度は発散するものとなる。
- 一般線形モデルやニューラルネットワークなどの線形モデルを用いて直接的に方策を規定するアプローチ : 決定的方策の場合は、状態などの入力に対して行動を出力する数理モデル、確率的方策の場合、行動の確率分布を出力するようなモデルが用いられる。
  - 関数近似を用いた強化学習での実現
- 状態行動対の効用を出力する効用関数を準備して間接的に方策を規定するアプローチ:
  - 貪欲方策: 貪欲方策はつねに効用が最大の行動を選択するものとなる。
  - ε貪欲方策: 確率εでランダムに行動を選択して、それ以外は貪欲方策に従うモデル。探索率を調整することで、初期段階では探索を重視し、後の段階で利用を重視するアプローチとなる。ε貪欲モデルに対する実装は”モデルフリー強化学習のpythonによる実装(1) epsilon-Greedy法“に述べている。
  - ソフトマックス方策: 貪欲方策を確率的方策に拡張したモデルで、”ソフトマックス関数の概要と関連アルゴリズム及び実装例について“で述べているソフトマックス関数を用いて行動を確率的に選択したものとなる。
  - 楽観的な方策: 「不確かな時は楽観的に」(optimism in the face of uncertainty)というヒューリスティックを用いて方策を選択するもの。基本的には効用効果が不確実な行動があれば、それらを優先的に選択するものとなる。
  - UCB (Upper Confidence Bound)法: 状態が一つしかない特別な強化学習問題である多腕バンディット問題に対して提案されたもの。行動の価値に上限信頼区間を考慮して探索と利用をバランスさせる手法となる。詳細は”確率的バンディッド問題の方策尤度に基づく方策(UCBとMED方策)“を参照のこと。
報酬の設計へのアプローチ: 近年の深層学習モデルは勾配降下法により最適化を行うことが多いが、この場合当然「勾配」が計算できる必要がある。二乗誤差は勾配の計算が可能だが、中には計算できない指標もある。強化学習であれば、勾配が計算できなくても評価指標の値を「報酬」にしてしまえば学習できる。この報酬を定める手法として以下の様なものがある。
- 模倣学習: 模倣学習(Imitation Learning)は、教師あり学習に似ている。エキスパートの行動を記録しておいて、それと近しい行動をとるよう、エージェントを学習させるためである。しかし、単にエキスパートの行動を真似するだけでは不十分で、これには2つの理由がある。1点目は状態数が非常に多い場合エキスパートの行動をとりきるのが困難である点、2点目はそもそも行動を記録するのが難しい状態がある点となる。模倣学習では限られてお手本から、お手本以外のケースも含めて適切な行動がとれるよう学習することが目標となる。模倣学習の手法として、以下の4つがある。これら手法の詳細に関しては”深層強化学習の弱点の克服局所最適な行動/過学習への対応(1)模倣学習“に述べている。
  - Forward Training: Foward Trainingは、各タイムステップ個別で戦略を作成し、それをつなぎ合わせて全体戦略とする手法となる。
  - SMILe: SMILeはFoward Trainingの問題点を改善した手法となる。”Mixing”の名の通り、複数の戦略を混合していくような手法となる。単一の戦略に統合するため、タイムステップごとに戦略が分かれることはない。タイムステップの長さを決める必要もない。
  - DAgger: DAggerは、戦略を基準としてきたForward Training/SMILeとは異なりデータを基準とした手法となる。DAggerではSMILeのように戦略の混合は行わない。その代わり、データの混合を行う。
  - GAIL: GAILはエキスパートの模倣を「見破られないように」行うという手法になる。つまり、エキスパートを模倣する側と模倣を見破る側、2つのモデルが存在する。
- 逆強化学習 (IRL): 「模倣学習」が行動そのものを学習するのに対して、お手本で示される行動の背景にある報酬関数(人がどのような点を報酬と感じているか)を推定して学習させるのが逆強化学習となる。逆強化学習の詳細に関しては”逆強化学習の概要とアルゴリズム及び実装例について“を参照のこと。
- 線形計画法: 線形計画法は、報酬で行動の評価を行う。エキスパートの行動は最良の行動であるはずなので、エキスパートの行動で得られる報酬は高く、それ以外の行動で得られる報酬は低くなるように、報酬の推定を行う。報酬の差(Margin)を最大化(Max)するため、MaxMarginの問題設定となる。線形計画法の詳細に関しては”線形計画法の概要とアルゴリズム及び実装例について“を参照のこと。
- AIRL(Apprenticeship learning via Inverse Reinforcement Learning): AIRLでは、状態遷移に注目している(なお、AIRLという略称は一般的ではない)。エキスパートがたどる状態と、それ以外の戦略がたどる状態とでは、明らかに差があると考えられる。そこで、エキスパートがよくたどる状態には高く、そうでない状態には低く報酬を設定する。つまり、状態遷移の特徴から報酬を計算するということになる。AIRLも線形計画法と同じく「報酬の差」をなるべく広げるようにしているが、AIRLでは報酬が状態遷移の特徴に依存する点が異なる。AIRLの詳細に関しては”深層強化学習の弱点の克服局所最適な行動/過学習への対応(2)逆強化学習“を参照のこと。

4. 状態空間の複雑さへのアプローチ: “関数近似を用いた強化学習(1) – 価値関数の関数近似(バッチ学習の場合)“等で述べているように状態数や行動数が膨大であったり状態行動空間が連続の場合に対応するため、価値関数や方策関数を関数近似器を用いて近似して学習する。

- 価値関数の関数近似: 適合Q反復(fitted Q iteration)等がある。詳細は”関数近似を用いた強化学習(1) – 価値関数の関数近似(バッチ学習の場合)“等を参照のこと。
- 方策関数の関数近似: 線形関数近似等を用いて方法等がある。詳細は”関数近似を用いた強化学習(1) – 価値関数の関数近似(バッチ学習の場合)“等を参照のこと。
- 深層学習の適用: 関数としてニューラルネットを用いる手法がある。詳細は”強化学習に対するニューラルネットワークの適用(1)概要“等を参照のこと。

5. サンプリングバイアスへのアプローチ: データの偏りに対するアプローチは”スモールデータでの機械学習のアプローチと各種実装例“も参照のこと。

- 重み付け付きサンプリング: バイアスのあるデータを適切に重み付けして学習する手法等がある。
- バッチ再学習: 新しいデータを収集せず、過去のデータを再利用してエージェントの学習を進めるアプローチ等がある。

6. 適応性の制約へのアプローチ:

- オンライン学習: 新たな状況に適応する能力を向上させるために、リアルタイムでの学習と適用を行うアプローチがある。詳細は”オンライン学習とオンライン予測について“を参照のこと。
- 逐次学習: エージェントが新たな情報を収集しながら学習を進め、状況の変化に適応するアプローチがある。詳細は”オンライン学習とオンライン予測について“を参照のこと。

具体的な実装と参考情報及び参考図書

強化学習の具体的な実装に関しては”強化学習技術の概要と各種実装について“、”バンディット問題の概要と適用事例及び実装例“、シミュレーションと機械学習の組み合わせと各種実装例“等を参照のこと。また、応用事例を含めた詳細情報に関しては”様々な強化学習技術の理論とアルゴリズムとpythonによる実装“も参照のこと。

必要性・基礎理論を学ぶ

“Reinforcement Learning: An Introduction” (2nd Edition) by Richard S. Sutton and Andrew G. Barto
→ 強化学習の「なぜ必要か」に直結する定番教科書。エージェントが試行錯誤を通じて学習する意義や理論的基盤を体系的に学べる。
- 必要性: 教師あり学習や教師なし学習では困難な「逐次決定問題」や「探索と活用のトレードオフ」に対応するためのフレームワークとして強化学習が必要であることを解説。
- 技術課題: 探索問題、スケーラビリティ、部分観測、サンプル効率など。

適用事例（ロボティクス・ゲーム・産業応用）

“Deep Reinforcement Learning Hands-On” by Maxim Lapan
→ ゲーム（Atari, Go, 自動運転シミュレーション）、ロボット制御、金融などの応用事例をPyTorchで実装しながら学習。
- 必要性: 現実世界の不確実な環境で最適行動を見つける枠組みとしてRLを活用。
- 技術課題: 計算資源のコスト、シミュレータと実環境のギャップ。
“Reinforcement Learning for Robotics” by Abhijeet Chaudhari and Aniket Bera
→ ロボット操作・ナビゲーション・マルチエージェント制御といった物理的タスクでのRL応用に特化。

技術課題と解決アプローチ

“Algorithms for Reinforcement Learning” by Csaba Szepesvári
→ サンプル効率や探索戦略など、RLアルゴリズムの課題を理論的に整理。比較的コンパクトな本。
“Foundations of Deep Reinforcement Learning” by Laura Graesser and Wah Loon Keng
→ 技術課題（サンプル効率の低さ、報酬設計、部分観測問題、マルチエージェント協調など）と、その解決アプローチ（模倣学習、階層型RL、カリキュラム学習、モデルベースRL）を包括的に紹介。
“Advanced Deep Learning with TensorFlow 2 and Keras” (Chapter on RL) by Rowel Atienza
→ 技術課題に対して「分散RL」「モデルベースRL」「転移学習」など最新のアプローチを紹介。

マルチエージェント・実世界応用

“Multi-Agent Reinforcement Learning: Foundations and Modern Approaches” by Lucian Buşoniu, Robert Babuška, Bart De Schutter
→ マルチエージェント協調・競合・通信の技術課題と解決策を体系化。
“Reinforcement Learning for Finance” by Jibin Liu
→ 金融分野での適用事例を通じて「なぜRLが必要か（市場の不確実性・逐次的意思決定の本質）」を理解できる。