最適化が暴走するとき、何が起きているのか ―目的関数が世界を歪める瞬間と、Goodhartの法則を設計でどう扱うか

AIは最適化が得意だ。
むしろ、それしかできない。

だからこそ、
最適化が暴走したとき、世界そのものが歪む。

これはバグの話ではない。
アルゴリズムの失敗でもない。

設計の問題だ。

最適化は「善意」で始まる

最適化は、いつも正しい動機から始まる。

売上を最大化したい
効率を上げたい
無駄を減らしたい
判断を客観化したい

そこで人は、こう考える。

「評価指標を決めて、
それを最大化すればうまくいくはずだ」

この瞬間、
世界は目的関数に変換される。

目的関数は「世界の縮約」である

目的関数とは何か。

それは、

現実の一部を切り取り、
数値として扱える形にしたもの

だ。

顧客満足度 → NPS
成果 → KPI
公平性 → スコア

この時点で、
世界はすでに削られている。

だが問題は、
削ったこと自体ではない。

Goodhartの法則が発動する瞬間

有名な言葉がある。

「指標が目標になった瞬間、
それは良い指標ではなくなる」

これがGoodhartの法則だ。

だが本質は、もう少し深い。

本当に起きていること

指標が「測るもの」から
行動を支配するものに変わる

すると、人もシステムも、
世界ではなく指標に最適化し始める。

最適化が暴走するとき、現場で起きること

最適化が進むと、
次のような現象が連鎖的に起きる。

数値は改善する
しかし、違和感が増える
現場が疲弊する
本来の目的が説明できなくなる

それでも指標は良い。

だから止まらない。

「数字は出ているので」

この一言が、
世界の歪みを固定化する。

AIは「世界」を見ていない

AIが見ているのは、

状態
行動
報酬

だけだ。

つまり、

目的関数で切り取られた世界

しか存在しない。

AIは世界を歪めていない。
歪んだ世界を、忠実に最適化しているだけだ。

なぜ最適化は止まらないのか

理由は単純だ。

最適化には、
自然な停止条件が存在しない。

もっと良くできる
まだ上がる
改善余地がある

これは計算としては正しい。

だが判断としては、
必ずしも正しくない。

「ここでやめる」

という判断は、
目的関数の外側からしか出てこない。

Goodhartの法則は「避ける」ものではない

重要な視点がある。

Goodhartの法則は、

防げない
消せない
起きる前提で扱うべき

現象だ。

だから問うべきは、

「どう防ぐか」ではなく
「どう壊れ方を設計するか」

である。

設計でできる3つの扱い方

1. 目的関数を“唯一”にしない

複数の指標を併置する
トレードオフを前提にする
合成スコアを神格化しない

最適化対象を分散させることで、
一方向への暴走を抑える。

2. 人間の「停止判断」を組み込む

一定条件で人がレビューする
数値が良すぎるときほど疑う
「なぜ良いのか」を説明させる

停止は、
計算ではなく判断で行う。

3. 目的関数の“寿命”を短くする

永久に使わない
定期的に捨てる
仮説として扱う

目的関数は真理ではない。
一時的なレンズにすぎない。

最適化は、判断を代替できない

最適化は強力だ。
だがそれは、

判断を不要にする力ではない

むしろ逆だ。

最適化が進めば進むほど、
「どこで止めるか」という
人間の判断が重要になる。

まとめ

目的関数は世界を縮約する
最適化は歪みを増幅する
Goodhartの法則は必ず発動する
問題は最適化ではなく、設計にある
停止と修正は人間の責務である

AIは暴走しない。
暴走しているのは、
止める判断を外した設計そのものだ。