推論を手続きに結晶化させる理由
毎回ゼロから考えるAI
後輩にスプレッドシートでピボットテーブルの作り方を教えている場面を想像してみよう。
初日、質問される。30分かけて説明する。 二日目、同じ後輩が同じ質問をする。また30分。 三日目、四日目——同じことの繰り返し。
これがまさに今日のLLMの動作方法だ。
GPTに「PythonでCSVをパースして」と頼めば、モデルは数十億のパラメータを動員してゼロから推論する。明日同じ質問をしても、明後日しても、毎回同じコストを支払う。昨日の推論は蒸発する。記録されず、再利用されず、蓄積されない。
これはキャッシュなしで動くWebサーバーだ。 同じ試験問題をノートも取らずに繰り返し解く学生だ。 そして経験を蓄積しない知能は決して成長しない。
LLMはコンパイラであり、ランタイムエンジンではない
SEGLAMはこの問題に根本的に異なる答えを提供する。
LLMはすべてのリクエストを実行するランタイムエンジンではない—— 推論をコードに結晶化するコンパイラだ。
仕組みはこうだ:
- リクエストが届いたら、まず推論キャッシュを確認する。
- **キャッシュヒット:**同一または類似の推論プロセスがすでにコードに結晶化されている。LLMは起動しない。該当コードを即座に実行する。高速、低コスト、決定論的。
- **キャッシュミス:これは前例のない種類の推論だ。ここでLLMが起動する。しかしLLMは「答え」を生成するのではなく——「答えを生成するコード」**を生成する。このコードがキャッシュに追加される。
次に同様のリクエストが来たら?キャッシュヒット。LLMは眠ったままでよい。
JITコンパイルとのアナロジー
このアーキテクチャは、コンピュータサイエンスですでに実証されたパターンの再発見だ。
JIT(ジャストインタイム)コンパイラを考えてみよう。JavaとJavaScriptのエンジンは最初、インタプリタでコードを一行ずつ実行する。遅いが動く。同じコードパスが繰り返し実行されると——「これはホットパスだ」——エンジンはそのパスをネイティブマシンコードにコンパイルする。以後、インタプリタを通さず直接実行される。
SEGLAMでは:
- **インタプリタ = LLM。**遅く、高コストで、確率的だが、あらゆるリクエストに対応できる。
- **ネイティブコード = キャッシュされた推論コード。**高速、低コスト、決定論的。
- **JITコンパイル = キャッシュミス時にLLMがコードを生成するプロセス。**コストは高いが、一度だけで済む。
JITコンパイラが「ホットパス」を最適化するように、 SEGLAMは「ホットな推論」をコードに結晶化する。
なぜ「答え」ではなく「コード」をキャッシュするのか?
ここが核心だ。単純なレスポンスキャッシュとSEGLAMの推論キャッシュは根本的に異なる。
レスポンスキャッシュは「Q:韓国の首都は? -> A:ソウル」を格納する。質問が完全一致したときだけヒットする。「大韓民国の首都は?」と聞けばミスする。これは辞書であって知能ではない。
SEGLAMの推論キャッシュは「この種の質問に対して、この手続きで答えを組み立てる」というコードを格納する。具体的な値ではなく推論パスそのものを結晶化する。したがって入力が変わっても、同じ種類の質問ならヒットする。これは理解だ。これは成長だ。
たとえるなら:レスポンスキャッシュは九九を暗記する。推論キャッシュは掛け算の仕方を学ぶ。
時間の経過で何が起こるか
この設計の最も強力な特性は、時間が味方することだ。
- **1日目:**キャッシュは空。ほぼすべてのリクエストがキャッシュミス。LLMがフル稼働する。遅くて高コスト。
- **30日目:**かなりの割合のルーチン推論パターンがキャッシュされている。LLM呼び出しが減少。
- **365日目:**ほとんどのリクエストがキャッシュヒット。LLMは本当に新しいタイプの問題にのみ呼び出される。システムは高速、低コスト、予測可能。
- **それ以降:**キャッシュ自体がそのドメインの「結晶化された知能」になる。ポータブルで、検証可能で、蓄積可能な知的資産。
LLMへの依存は時間とともに減少する。 システム効率は時間とともに増加する。 この曲線は決して逆転しない。
推論保存の原則
このアプローチの最も根本的な原則は:
「AIの推論過程は捨ててはならない——記録しなければならない。」
推論キャッシュはこの哲学の最も直接的な実装だ。
LLMが一度行った推論は構造化表現に結晶化されて格納される。捨てられない。再利用される。検証される。改善される。蓄積される。
そしてキャッシュされたコードは明確な構造化言語で記述されているため:
- 特定の手続きがなぜ作成されたかを追跡でき、
- 手続きが間違いとわかったときに修正でき、
- より良い手続きが見つかったときに置換できる。
ブラックボックスの中で呼び出すたびに蒸発する推論ではなく、 ホワイトボックスの上に蓄積される知能。それが追求すべきAIのビジョンだ。
まとめ
| 従来のLLM | SEGLAM |
|---|---|
| リクエストのたびにゼロから推論 | キャッシュヒット時にキャッシュコードを実行 |
| 推論結果が蒸発 | 推論がコードに結晶化し蓄積 |
| コストが使用量に比例して増大 | コストが時間とともに減少 |
| LLM = ランタイムエンジン | LLM = コンパイラ |
| ブラックボックス推論 | 検証・修正・置換可能なコード |
毎回のリクエストでLLMを呼び出すのは、隣の家に行くのに飛行機に乗るようなものだ。 一度道を舗装すれば、以後は歩いて行ける。
SEGLAMは道を舗装するシステムだ。