Warum Schlussfolgerungen als Code cachen?

Plaedoyer fuer die Kristallisation von Inferenz in Prozeduren

Eine KI, die jedes Mal von Null denkt

Stellen Sie sich vor, Sie bringen einem jungen Kollegen bei, wie man eine Pivot-Tabelle in einer Tabellenkalkulation erstellt.

Am ersten Tag fragt er. Sie verbringen dreissig Minuten mit der Erklaerung. Am zweiten Tag stellt derselbe Kollege dieselbe Frage. Sie verbringen weitere dreissig Minuten. Am dritten Tag, am vierten Tag – dasselbe.

Genau so funktionieren heutige LLMs.

Bitten Sie GPT, “eine CSV in Python zu parsen”, und das Modell mobilisiert Milliarden von Parametern, um von Grund auf zu denken. Stellen Sie morgen oder uebermorgen dieselbe Frage, und es zahlt jedes Mal dieselben Kosten. Das Denken von gestern verfluechigt sich. Es wird nicht aufgezeichnet, nicht wiederverwendet, nicht akkumuliert.

Das ist ein Webserver, der ohne Cache laeuft. Ein Student, der dieselbe Pruefungsaufgabe immer wieder loest, ohne sich Notizen zu machen. Und Intelligenz, die keine Erfahrung akkumuliert, kann nie wachsen.

Das LLM ist ein Compiler, keine Laufzeitumgebung

SEGLAM bietet eine grundlegend andere Antwort auf dieses Problem.

Das LLM ist keine Laufzeitumgebung, die jede Anfrage ausfuehrt – es ist ein Compiler, der Denken in Code kristallisiert.

So funktioniert es:

Wenn eine Anfrage eintrifft, zuerst den Reasoning-Cache pruefen.
Cache Hit: Ein identischer oder aehnlicher Denkprozess wurde bereits in Code kristallisiert. Das LLM wird nicht aufgerufen. Der entsprechende Code wird sofort ausgefuehrt. Schnell, guenstig und deterministisch.
Cache Miss: Dies ist eine bisher unbekannte Art des Denkens. Jetzt wird das LLM aufgerufen. Aber das LLM generiert nicht “eine Antwort” – es generiert “Code, der die Antwort erzeugt.” Dieser Code wird dem Cache hinzugefuegt.

Wenn naechstes Mal eine aehnliche Anfrage kommt? Cache Hit. Das LLM kann schlafen bleiben.

Die Analogie zur JIT-Kompilierung

Diese Architektur ist eine Wiederentdeckung eines in der Informatik bereits bewiesenen Musters.

Betrachten wir den JIT-Compiler (Just-In-Time). Java- und JavaScript-Engines fuehren Code anfangs Zeile fuer Zeile durch einen Interpreter aus. Langsam, aber funktional. Wenn derselbe Codepfad wiederholt ausgefuehrt wird – “das ist ein Hot Path” – kompiliert die Engine diesen Pfad in nativen Maschinencode. Von da an wird er direkt ausgefuehrt, ohne den Interpreter zu durchlaufen.

In SEGLAM:

Interpreter = LLM. Langsam, teuer und probabilistisch, aber in der Lage, jede Anfrage zu bearbeiten.
Nativer Code = gecachter Reasoning-Code. Schnell, guenstig und deterministisch.
JIT-Kompilierung = der Prozess, bei dem das LLM bei einem Cache Miss Code generiert. Kostspielig, muss aber nur einmal geschehen.

So wie ein JIT-Compiler “Hot Paths” optimiert, kristallisiert SEGLAM “heisses Denken” in Code.

Warum “Code” statt “Antworten” cachen?

Das ist der Kern. Ein einfacher Antwort-Cache und SEGLAMs Reasoning-Cache sind grundlegend verschieden.

Ein Antwort-Cache speichert “F: Was ist die Hauptstadt von Korea? -> A: Seoul.” Er trifft nur, wenn die Frage exakt uebereinstimmt. Fragen Sie “Was ist die Hauptstadt der Republik Korea?” und es ist ein Miss. Das ist ein Woerterbuch, keine Intelligenz.

SEGLAMs Reasoning-Cache speichert Code, der sagt “fuer diesen Fragetyp die Antwort durch diese Prozedur konstruieren”. Er kristallisiert nicht den spezifischen Wert, sondern den Denkpfad selbst. Daher trifft derselbe Fragetyp auch bei geaenderter Eingabe. Das ist Verstehen. Das ist Wachstum.

Eine Analogie: Ein Antwort-Cache merkt sich das Einmaleins; ein Reasoning-Cache lernt, wie man multipliziert.

Was mit der Zeit passiert

Die maechtigste Eigenschaft dieses Designs ist, dass die Zeit auf seiner Seite ist.

Tag 1: Der Cache ist leer. Fast jede Anfrage ist ein Cache Miss. Das LLM arbeitet hart. Langsam und teuer.
Tag 30: Ein erheblicher Teil routinemaessiger Denkmuster ist gecacht. LLM-Aufrufe nehmen ab.
Tag 365: Die meisten Anfragen sind Cache Hits. Das LLM wird nur fuer wirklich neuartige Problemtypen aufgerufen. Das System ist schnell, guenstig und vorhersagbar.
Darueber hinaus: Der Cache selbst wird zu “kristallisierter Intelligenz” fuer seine Domaene. Portable, ueberpruefbare und akkumulierbare intellektuelle Werte.

Die Abhaengigkeit vom LLM nimmt mit der Zeit ab. Die Systemeffizienz nimmt mit der Zeit zu. Diese Kurve kehrt sich nie um.

Das Prinzip der Denkbewahrung

Das fundamentalste Prinzip dieses Ansatzes ist:

“Der Denkprozess einer KI darf nicht verworfen werden – er muss aufgezeichnet werden.”

Der Reasoning-Cache ist die direkteste Implementierung dieser Philosophie.

Denken, das ein LLM einmal ausfuehrt, wird in eine strukturierte Darstellung kristallisiert und gespeichert. Es wird nicht verworfen. Es wird wiederverwendet. Ueberprueft. Verbessert. Akkumuliert.

Und weil dieser gecachte Code in einer klaren, strukturierten Sprache beschrieben ist:

Man kann nachverfolgen, warum eine bestimmte Prozedur erstellt wurde,
Man kann eine Prozedur korrigieren, wenn sie sich als falsch herausstellt,
Man kann sie ersetzen, wenn eine bessere Prozedur entdeckt wird.

Nicht Denken, das mit jedem Aufruf in einer Black Box verdampft, sondern Intelligenz, die sich auf einer White Box ansammelt. Das ist die Vision von KI, die es wert ist, verfolgt zu werden.

Zusammenfassung

Konventionelles LLM	SEGLAM
Denkt bei jeder Anfrage von Grund auf	Fuehrt bei Cache Hit gecachten Code aus
Denkergebnisse verdampfen	Denken kristallisiert in Code und akkumuliert sich
Kosten skalieren mit der Nutzung	Kosten sinken mit der Zeit
LLM = Laufzeitumgebung	LLM = Compiler
Black-Box-Denken	Code, der ueberprueft, korrigiert und ersetzt werden kann

Das LLM fuer jede Anfrage aufzurufen ist, als wuerde man ein Flugzeug zum Nachbarhaus nehmen. Einmal die Strasse asphaltiert, kann man fortan laufen.

SEGLAM ist das System, das Strassen asphaltiert.