Natuerliche Sprache wird unweigerlich laenger, um Mehrdeutigkeit aufzuloesen. In einer klaren Struktur verschwindet dieser Aufwand.


Die Kosten der Mehrdeutigkeit

“He went to the bank.”

7 Tokens. Kurz. Sieht effizient aus.

Aber dieser Satz ist unbrauchbar. Er kann nicht in den Denkkontext der KI eingefuegt werden. Weil er mehrdeutig ist.

Wer ist “he”? Ist “bank” ein Finanzinstitut oder ein Flussufer? Wann ist er gegangen? Warum ist er gegangen?

Das Denken ausgehend von diesem Satz erzeugt vier Zweige der Unsicherheit. Unsicherheit pflanzt sich durch jeden nachfolgenden Denkschritt fort. Wenn fortgepflanzte Unsicherheit als Sicherheit ausgegeben wird, ist das Halluzination.

Also versucht natuerliche Sprache, Mehrdeutigkeit aufzuloesen. Der einzige Weg, sie aufzuloesen, ist die Verwendung von mehr Woertern.


Die Kosten der Aufloesung

Betrachten wir eine eindeutige Version des Satzes.

“Kim Cheolsu, Abteilungsleiter des Finanzteams bei Samsung Electronics, besuchte die Gangnam-Filiale der Shinhan Bank am Montag, den 15. Januar 2024, um ein Firmenkonto zu eroeffnen.”

Jetzt gibt es keine Mehrdeutigkeit. Das Subjekt ist angegeben. Der Ort ist angegeben. Der Zeitstempel ist genannt. Der Zweck ist genannt.

Aber 7 Tokens sind zu 40 geworden.

Die zusaetzlichen 33 Tokens sind vollstaendig die Kosten der Disambiguierung. Sie sind keine neue Information. “He” als “Kim Cheolsu, Abteilungsleiter des Finanzteams bei Samsung Electronics” zu spezifizieren hat keine Bedeutung hinzugefuegt – es hat Mehrdeutigkeit entfernt.

In natuerlicher Sprache ist Klarheit nicht kostenlos. Um klar zu werden, muss man lang werden. Das ist eine strukturelle Eigenschaft der natuerlichen Sprache.


Warum natuerliche Sprache unweigerlich laenger wird

Natuerliche Sprache hat sich fuer die Kommunikation zwischen Menschen entwickelt. In menschlicher Kommunikation ist Mehrdeutigkeit ein Feature.

“Er ist zur Bank gegangen, habe ich gehoert.”

Wenn Sprecher und Zuhoerer denselben Kontext teilen, wissen sie bereits, wer “er” ist und welche “Bank” gemeint ist. 7 Tokens genuegen. Mehrdeutigkeit ist ein Kompressionsm mechanismus. Sie laesst aus, indem sie sich auf geteilten Kontext stuetzt.

Das Problem entsteht auf der Dekompressionsseite.

Um die Nachricht an jemanden zu uebermitteln, der den Kontext nicht teilt, muss alles Ausgelassene wiederhergestellt werden. Wiederherstellung macht es laenger.

In natuerlicher Sprache sind Klarheit und Kuerze ein Zielkonflikt. Klar bedeutet lang. Kurz bedeutet mehrdeutig. Beides gleichzeitig ist nicht moeglich.

Das ist die fundamentale Beschraenkung natuerlicher Sprache.


KI hat keinen geteilten Kontext

In der Kommunikation zwischen Menschen ist Mehrdeutigkeit effizient. Jahrzehnte gemeinsamer Erfahrung, kultureller Hintergrund und Gespraechsfluss loesen Mehrdeutigkeit automatisch auf.

KI hat das nicht.

Der Text innerhalb des Kontextfensters der KI ist alles, was es gibt. Kontext ausserhalb des Textes existiert nicht.

“He went to the bank” in den Kontext einfuegen, und die KI beginnt mit vier Zweigen der Unsicherheit zu denken. Sie waehlt die “plausibelste” Interpretation und akzeptiert das Risiko, falsch zu liegen.

Deshalb ist natuerliche Sprache fuer den KI-Kontext nachteilig.

Klar schreiben und die Token-Anzahl explodiert, was Fensterplatz verschwendet. Kurz schreiben und die Mehrdeutigkeit wird Rohmaterial fuer Halluzination.

Solange man natuerliche Sprache verwendet, gibt es kein Entkommen aus diesem Dilemma.


Strukturelle Klarheit als Loesung

Um dieses Dilemma zu loesen, muss der Zielkonflikt zwischen Klarheit und Kuerze gebrochen werden.

In natuerlicher Sprache ist das unmoeglich. Mehrdeutigkeit aufzuloesen erfordert das Hinzufuegen von Woertern.

Aber in einer strukturell klaren Darstellung ist es moeglich.

In natuerlicher Sprache erfordert die Angabe von “Kim Cheolsu” das Schreiben von “Kim Cheolsu, Abteilungsleiter des Finanzteams bei Samsung Electronics”. In einer strukturierten Darstellung erledigt ein einziger eindeutiger Identifikator die Sache. Der Identifikator ist inhaerent eindeutig. Der Modifikator “Finanzteam bei Samsung Electronics” ist unnoetig. Modifikatoren sind Disambiguierungsmittel fuer Menschen – sie sind fuer Maschinen unnoetig.

In natuerlicher Sprache erfordert das Aufloesen, ob “bank” ein Finanzinstitut oder ein Flussufer bedeutet, das Schreiben von “Shinhan Bank, Gangnam-Filiale”. In einer strukturierten Darstellung zeigt der Identifikator der Entitaet auf das Finanzinstitut. Mehrdeutigkeit wird an der Quelle durch die Struktur blockiert.

In natuerlicher Sprache erfordert die Angabe eines Zeitstempels das Schreiben von “Montag, 15. Januar 2024”. In einer strukturierten Darstellung geht ein Wert in das Zeitfeld. Weil das Feld existiert, ist Auslassung unmoeglich. Weil der Wert typisiert ist, gibt es keine Interpretations-Mehrdeutigkeit.

In struktureller Klarheit konvergieren die Kosten der Disambiguierung gegen null. Identifikatoren sind eindeutig, also sind Modifikatoren unnoetig. Felder existieren, also ist Auslassung unmoeglich. Werte sind typisiert, also ist die Interpretation deterministisch.


Kompression ist ein Nebenprodukt der Klaerung

Hier geschieht etwas Interessantes.

Klar machen macht kuerzer.

In natuerlicher Sprache macht Klarheit Dinge laenger. In strukturierter Darstellung macht Klarheit Dinge kuerzer.

Warum?

Weil das meiste von dem, was natuerlichsprachliche Saetze lang macht, die Kosten der Disambiguierung sind.

In “Kim Cheolsu, Abteilungsleiter des Finanzteams bei Samsung Electronics” sind “Finanzteam bei Samsung Electronics” und “Abteilungsleiter” keine Information – sie sind Identifikationsmittel. Sie sind Modifikatoren, um einzugrenzen, wer “er” ist. Mit einem eindeutigen Identifikator verschwinden all diese Modifikatoren.

In “Montag, 15. Januar 2024” ist das Wort “Montag” redundant. Der 15. Januar bestimmt bereits den Wochentag. Doch in natuerlicher Sprache wird solche Redundanz konventionell fuer Klarheit hinzugefuegt. In einem typisierten Zeitfeld ist solche Redundanz strukturell unmoeglich.

Als Ergebnis struktureller Klaerung wird der Ausdruck kuerzer als natuerliche Sprache.

Das ist keine absichtliche Kompression. Es ist das Ergebnis des Verschwindens der Disambiguierungskosten.


Das Paradox eines einzelnen Satzes

Es gibt hier etwas, worueber man ehrlich sein muss.

Fuer einen einzelnen Satz kann eine strukturierte Darstellung laenger sein als natuerliche Sprache.

“Yi Sun-sin war grossartig.”

In natuerlicher Sprache ist das in 7 Tokens erledigt. In eine strukturierte Darstellung umwandeln – Entitaetsknoten, Attributknoten, Verb-Kante, Tempus, Konfidenzfeld – und der strukturelle Overhead kann groesser sein als der Satz selbst.

Das stimmt. Es gibt Fixkosten fuer das Einbetten von Klarheit in die Struktur.

Aber mit zunehmender Anzahl von Aussagen tritt eine Umkehr ein.

Wenn es 100 Aussagen ueber Yi Sun-sin gibt, schreibt natuerliche Sprache “Yi Sun-sin” 100 Mal. In einer strukturierten Darstellung definiert man den Yi-Sun-sin-Knoten einmal und 100 Kanten referenzieren ihn.

Wenn 50 Aussagen aus derselben Quelle stammen, zitiert natuerliche Sprache die Quelle jedes Mal oder laesst sie aus und wird mehrdeutig. In einer strukturierten Darstellung werden die Metadaten einmal gebunden.

Mit der Akkumulation von Aussagen steigen die Knotenteilungsraten. Mit steigenden Knotenteilungsraten wachsen die Gewinne aus struktureller Klarheit.

In der Praxis beginnt die Umkehr bei etwa 20 Aussagen. Im Context Engineering ist es selten, dass die im Fenster platzierten Informationen weniger als 20 Aussagen umfassen.

In praktischen Begriffen ist strukturierte Darstellung immer klar und immer kuerzer.


Die Kettenreaktion, die Klarheit erzeugt

Klaerung erzeugt nicht nur Kompression.

Indexierung wird moeglich. Wenn es eindeutige Identifikatoren gibt, wird praezise Suche moeglich. Die Suche nach “Apple Umsatz” liefert nicht “Apfel Naehrwerte”. Wenn der Identifikator Bedeutung kodiert, reduziert eine einzige Bitmaske die Kandidaten.

Validierung wird moeglich. Wenn die Struktur typisiert ist, kann “ist das ein gueltiger Ausdruck?” mechanisch beurteilt werden. In natuerlicher Sprache existiert das Konzept eines “ungueltigen Satzes” nicht. In einer klaren Struktur: Wenn ein Pflichtfeld leer ist, ist es ungueltig.

Konsistenzpruefung wird moeglich. Wenn Aussagen ueber dieselbe Entitaet eindeutig sind, kann “widersprechen sich diese beiden Aussagen?” mechanisch beurteilt werden. In natuerlicher Sprache erfordert die Bestimmung, ob “der CEO ist A” und “der CEO ist B” sich widersprechen, dass die KI beide Saetze liest und denkt. In einer klaren Struktur – selbe Entitaet, selbe Relation, verschiedene Werte – wird es automatisch erkannt.

Klarheit ist die Voraussetzung fuer die gesamte Context-Engineering-Pipeline. Indexierung, Validierung, Filterung, Konsistenzpruefung – nichts davon funktioniert, wenn die Information nicht klar ist.

Klaerung ist nicht eine Stufe der Pipeline. Sie ist die Bedingung, die die Pipeline ermoeglicht.


Zusammenfassung

In natuerlicher Sprache sind Klarheit und Kuerze ein Zielkonflikt. Klar bedeutet lang. Kurz bedeutet mehrdeutig.

KI hat keinen geteilten Kontext. Die Mehrdeutigkeit natuerlicher Sprache wird Rohmaterial fuer Halluzination. Mehrdeutigkeit aufzuloesen laesst Token-Zahlen anschwellen und verschwendet das Fenster.

Eine strukturell klare Darstellung bricht diesen Zielkonflikt. Eindeutige Identifikatoren blockieren Mehrdeutigkeit an der Quelle. Typisierte Felder machen Auslassung unmoeglich. Wenn Disambiguierungskosten verschwinden, folgt Kompression als Nebenprodukt.

Klaerung ist die Voraussetzung fuer Context Engineering. Wenn Information nicht klar ist, funktionieren Indexierung, Validierung und Konsistenzpruefung nicht.

Kompression ist nicht das Ziel. Klaerung ist das Ziel. Kompression folgt.