LLM時代からマルチエージェント時代へ：半導体アーキテクチャはどう変わるのか

■ Introduction

ここ数年、LLM（大規模言語モデル）の進化は、半導体の世界を大きく変えました。

問いは非常にシンプルでした。

いかに速く計算できるか

その答えとして、GPU中心の世界が確立されました。
行列演算を極限まで高速化し、FLOPSを最大化する。

しかし今、AIは次のフェーズに入ろうとしています。

AIは単体モデルではなく、
複数のエージェントが協調するシステムへと進化し始めています。

この変化は、半導体の設計思想そのものを変えます。

■ 1. LLM時代の半導体：Compute中心

LLM時代の計算特性は明確です。

大規模な行列演算
同一処理の並列実行
バッチ処理
分岐の少ない構造

この特性に最適化されたのが、
NVIDIA を中心としたGPUアーキテクチャです。

構造としては非常にシンプルです。

入力 → モデル → 出力

ここで重要だったのは、

FLOPS（計算量）をいかに最大化するか

でした。

■ 2. マルチエージェント時代の到来

一方で、Agentic AI（マルチエージェントシステム）は、
全く異なる計算構造を持ちます。

複数ステップの処理
ツールとの連携
環境との相互作用
状態の保持
エージェント間の通信

構造はこう変わります。

認識 → 行動 → フィードバック → ループ

これはもはや「推論」ではなく、

継続的に動き続けるシステム

です。

■ 3. ワークロードの本質的変化

この変化により、ボトルネックが変わります。

■ LLM時代

Compute（計算量）支配
GPU最適

■ マルチエージェント時代

Latency（遅延）
Memory（状態・履歴）
Control Flow（分岐・制御）
Communication（通信）

つまり、

ボトルネックは「計算」から「システム」へ移る

■ 4. 半導体アーキテクチャの変化

この変化は、半導体の構成を大きく変えます。

■ ① GPU中心 → 異種混合（Heterogeneous）

従来：

GPU中心

今後：

CPU + GPU + Memory + Network

■ ② CPU（特にARM）の再評価

マルチエージェントでは、

分岐
状態管理
非同期処理

が重要になります。

ここで再評価されているのが
Arm です。

理由：

低消費電力
制御処理に強い
スケーラブル

■ ③ メモリ中心設計へのシフト

Agentic AIでは、

コンテキスト
履歴
状態

が重要です。

計算よりもメモリアクセスが支配的になる

そのため：

HBM
Near-Memory Computing

の重要性が増します。

■ ④ 通信（Network）がボトルネックに

マルチエージェントでは、

エージェント間通信
外部ツール呼び出し

が頻発します。

ネットワークが性能を決める

■ ⑤ 非同期・イベント駆動化

従来：

同期処理
バッチ

今後：

イベント駆動
非同期処理

ハードウェアもそれに最適化される

■ 5. NVIDIAの位置づけはどうなるか

ここで重要なのは、

GPUが不要になるわけではない

という点です。

NVIDIA は引き続き、

LLM推論
学習

において中核を担います。

しかし役割は変わります。

従来：主役（全てを担う）
今後：構成要素の一つ

■ 6. Appleが示す未来

この方向性を最も先に体現しているのが
Apple のSoCです。

CPU（制御）
GPU（計算）
NPU（推論）
メモリ統合

これは「システムとしてのAI」の原型です。

■ 7. 本質的な変化

この変化を一言で言うと：

■ Before（LLM時代）

AI = 計算問題

■ After（マルチエージェント時代）

AI = システム問題

■ 8. Agentic AIの課題：動くが、制御できない

ここまで見てきたように、
Agentic AIは「システム」として動き始めます。

しかし、ここに本質的な問題があります。

それは、

動き続けるシステムは、制御が難しい

ということです。

■ なぜ制御が難しくなるのか

Agentic AIは、

時間を持つ（継続実行）
状態を持つ（コンテキスト・履歴）
外部と相互作用する（I/O）

という特性を持ちます。

これにより、システムは次のような状態になります。

■ ① 状態が変化し続ける

コンテキストが更新され続ける
過去の判断が現在に影響する

小さなズレが蓄積し、挙動が変わる

■ ② 分岐が見えなくなる

判断がモデル内部に埋もれる
なぜその行動になったか説明できない

意思決定がブラックボックス化する

■ ③ 止めどころがない

ループ
再試行
探索

無限実行・コスト増大

■ ④ 外部環境に依存する

API
データ
状況

同じ処理でも結果が変わる

■ ⑤ 再現できない

状態が暗黙的
履歴が不完全

検証・改善ができない

■ 一言でまとめると

Agentic AIは「時間」と「状態」を持つことで、
システムになった。

しかし同時に、
履歴依存による制御不能性を持ち込んだ。

■ 9. この課題に対するアプローチ

この「制御不能性」をどう扱うかは、
今まさに分岐点にあります。

いくつかのアプローチが考えられています。

■ ① 強化学習（RL）による最適化

試行錯誤で行動を学習
長期報酬を最大化

しかし：

学習コストが高い
制約の明示が難しい
安全性の保証が弱い

■ ② ルールベース制御

条件分岐を明示
手続き的に制御

しかし：

スケールしない
柔軟性が低い

■ ③ ワークフロー / オーケストレーション

フローとして制御
DAGやパイプライン

しかし：

動的な状況に弱い
状態の扱いが限定的

■ ④ モニタリング / ガードレール

異常検知
フィルタリング

しかし：

後追い（Reactive）
根本的な制御ではない

■ 10. DTM（Decision Trace Model）というアプローチ

これらに対して、別の方向性があります。

それがDTMです。

■ DTMがやること

DTMは、

動いているシステムの中に「意思決定の構造」を持ち込む

アプローチです。

■ 具体的には

■ Decision Contract（判断の定義）

どの条件で
何を選ぶか

分岐を明示化

■ Boundary（制約）

どこまで許容するか
どこで止めるか

暴走を防ぐ

■ Human Gate（人間の介入）

不確実な領域を人に戻す

完全自動化にしない

■ Trace（履歴）

いつ
何を
なぜ判断したか

再現・検証・学習可能にする

■ 11. DTM時代の半導体アーキテクチャ

― 意思決定を実行・制御・記録する計算基盤 ―

ここまで見てきたように、DTMは

判断を定義し（Decision Contract）
制約を適用し（Boundary）
人間を介在させ（Human Gate）
履歴を記録する（Trace）

という構造を持ちます。

このとき、重要な問いが生まれます。

この構造を支える半導体は、どのような構成になるのか？

■ 11.1 従来構成の限界

従来のAI半導体構成は以下でした：

CPU（制御）

GPU（推論）

Memory

Storage

Network

これは、

推論を高速化する
データを処理する

には最適です。

しかしDTMの観点では不十分です。

理由は明確です：

「意思決定」という処理単位が存在しない

■ 11.2 DTMによる構造分解

DTMをハードウェアに落とすと、処理は次のように分解されます：

Signal → Decision → Boundary → Execution → Trace

これをそのまま半導体構成に写像すると：

■ 11.3 新しい構成：Decision-Centric Architecture

[DTM-aware System Architecture]

① Signal Engine（推論）
② Decision Engine（判断）
③ Boundary Engine（制約）
④ Execution Engine（実行）
⑤ Trace Engine（履歴）

それぞれを具体的に見ていきます。

① Signal Engine（推論）

役割：

LLM / ML推論
状況の解釈

実装：

GPU / NPU
既存のAIアクセラレータ

ここはLLM時代の延長

② Decision Engine（判断）

役割：

Decision Contractの評価
条件分岐
優先順位制御

必要な特性：

高速な分岐処理
低遅延ルール評価
状態参照能力

実装の方向性：

CPU強化（特にArm系）
DSL実行専用ユニット
ルールエンジンのハードウェア化

ここが新しい中核領域

③ Boundary Engine（制約）

役割：

安全制約のチェック
実行可否の判定
異常時の停止・エスカレーション

必要な特性：

リアルタイム判定
フェイルセーフ
優先度評価

実装の方向性：

ハードウェアレベルの制約チェック
セーフティコントローラ（車載SoCに近い）

「やってはいけない」を止める層

④ Execution Engine（実行）

役割：

外部システムとの接続
制御信号の発行
タスクの実行

必要な特性：

高速I/O
非同期処理
イベント駆動

実装の方向性：

CPU + DPU（データ処理ユニット）
SmartNIC

システムを動かす層

⑤ Trace Engine（履歴）

役割：

意思決定の記録
状態の保存
再現・学習用データ生成

必要な特性：

低遅延書き込み
時系列一貫性
高頻度ログ処理

実装の方向性：

高速ログバッファ（SRAM）
ストリーミング書き込み
Ledger専用ストレージ

DTMで最も新しい要素

■ 11.4 なぜこの構成が必要か

従来の構成では：

推論はできる
実行もできる

しかし、

判断がどこで行われたか分からない
制約が後付けになる
履歴が断片的

DTM構成では：

判断が明示される
制約が実行前に適用される
履歴が一貫して残る

「動くシステム」から「制御可能なシステム」へ

■ 11.5 新しい半導体概念

この構成は、従来のCPU/GPUとは異なる新しいカテゴリを示唆します。

■ Decision Processing Unit（DPU的概念）

役割：

判断の実行
制約の適用
履歴の記録

従来：

CPU：制御
GPU：計算

今後：

Decision Unit：意思決定

半導体の役割が拡張される

■ 11.6 全体像

[DTM × Multi-Agent Semiconductor Stack]

Signal（GPU/NPU）
↓
Decision（CPU / Decision Unit）
↓
Boundary（Safety Controller）
↓
Execution（CPU / DPU）
↓
Trace（Ledger Memory / Storage）

■ 11.7 結論

LLM時代、半導体は「計算」を高速化した。
Agentic AI時代、半導体は「システム」を動かすようになった。

そしてDTM時代、半導体は
「意思決定」を実行・制御・記録する基盤へと進化する。

Deux Ex Machina

AIシステム設計・意思決定構造の設計を専門としています。
Ontology・DSL・Behavior Treeによる判断の外部化、マルチエージェント構築に取り組んでいます。

Specialized in AI system design and decision-making architecture.
Focused on externalizing decision logic using Ontology, DSL, and Behavior Trees, and building multi-agent systems.