Pourquoi la clarification est necessaire

Le langage naturel s’allonge inevitablement pour resoudre l’ambiguite. Dans une structure claire, ce cout disparait.

Le cout de l’ambiguite

“He went to the bank.”

7 tokens. Court. Ca a l’air efficace.

Mais cette phrase est inutilisable. On ne peut pas la mettre dans le contexte de raisonnement de l’IA. Parce qu’elle est ambigue.

Qui est “he” ? “Bank” est-il une institution financiere ou une berge de riviere ? Quand y est-il alle ? Pourquoi y est-il alle ?

Raisonner a partir de cette phrase produit quatre branches d’incertitude. L’incertitude se propage a chaque etape subsequente du raisonnement. Quand une incertitude propagee est produite comme si elle etait une certitude, c’est l’hallucination.

Alors le langage naturel essaie de resoudre l’ambiguite. Le seul moyen de la resoudre est d’utiliser plus de mots.

Le cout de la resolution

Regardons une version non ambigue de la phrase.

“Kim Cheolsu, chef de section de l’equipe finance de Samsung Electronics, a visite la succursale de Gangnam de Shinhan Bank le lundi 15 janvier 2024, pour ouvrir un compte d’entreprise.”

Maintenant il n’y a plus d’ambiguite. Le sujet est specifie. Le lieu est specifie. L’horodatage est indique. Le but est indique.

Mais 7 tokens sont devenus 40.

Les 33 tokens supplementaires sont entierement le cout de la desambiguisation. Ce ne sont pas de nouvelles informations. Specifier “he” comme “Kim Cheolsu, chef de section de l’equipe finance de Samsung Electronics” n’a pas ajoute de sens – cela a supprime l’ambiguite.

En langage naturel, la clarte n’est pas gratuite. Pour devenir clair, il faut devenir long. C’est une propriete structurelle du langage naturel.

Pourquoi le langage naturel s’allonge inevitablement

Le langage naturel a evolue pour la communication entre humains. Dans la communication humaine, l’ambiguite est une fonctionnalite.

“Il est alle a la banque, parait-il.”

Si le locuteur et l’auditeur partagent le meme contexte, ils savent deja qui est “il” et quelle “banque” c’est. 7 tokens suffisent. L’ambiguite est un mecanisme de compression. Elle omet en s’appuyant sur le contexte partage.

Le probleme surgit du cote de la decompression.

Pour transmettre le message a quelqu’un qui ne partage pas le contexte, tout ce qui a ete omis doit etre restaure. La restauration rend le texte plus long.

En langage naturel, clarte et brievete sont un compromis. Clair signifie long. Court signifie ambigu. On ne peut pas avoir les deux a la fois.

C’est la contrainte fondamentale du langage naturel.

L’IA n’a pas de contexte partage

Dans la conversation entre humains, l’ambiguite est efficace. Des decennies d’experience partagee, de contexte culturel et de fil conversationnel resolvent automatiquement l’ambiguite.

L’IA n’a pas cela.

Le texte dans la fenetre de contexte de l’IA est tout ce qu’il y a. Le contexte en dehors du texte n’existe pas.

Mettez “He went to the bank” dans le contexte, et l’IA commence a raisonner avec quatre branches d’incertitude. Elle choisit l’interpretation “la plus plausible” et accepte le risque de se tromper.

C’est pourquoi le langage naturel est desavantageux pour le contexte de l’IA.

Ecrivez clairement et le nombre de tokens explose, gaspillant l’espace de la fenetre. Ecrivez brievement et l’ambiguite devient la matiere premiere de l’hallucination.

Tant que vous utilisez le langage naturel, il n’y a pas d’echappatoire a ce dilemme.

La clarte structurelle comme solution

Pour resoudre ce dilemme, il faut briser le compromis entre clarte et brievete.

En langage naturel, c’est impossible. Resoudre l’ambiguite exige d’ajouter des mots.

Mais dans une representation structurellement claire, c’est possible.

En langage naturel, specifier “Kim Cheolsu” exige d’ecrire “Kim Cheolsu, chef de section de l’equipe finance de Samsung Electronics”. Dans une representation structuree, un seul identifiant unique fait l’affaire. L’identifiant est intrinsequement unique. Le modificateur “equipe finance de Samsung Electronics” est inutile. Les modificateurs sont des dispositifs de desambiguisation pour les humains – ils sont inutiles pour les machines.

En langage naturel, resoudre si “bank” signifie une institution financiere ou une berge exige d’ecrire “Shinhan Bank, succursale de Gangnam”. Dans une representation structuree, l’identifiant de l’entite pointe vers l’institution financiere. L’ambiguite est bloquee a la source par la structure.

En langage naturel, specifier un horodatage exige d’ecrire “le lundi 15 janvier 2024”. Dans une representation structuree, une valeur entre dans le champ temporel. Parce que le champ existe, l’omission est impossible. Parce que la valeur est typee, il n’y a pas d’ambiguite d’interpretation.

Dans la clarte structurelle, le cout de la desambiguisation converge vers zero. Les identifiants sont non ambigus, donc les modificateurs sont inutiles. Les champs existent, donc l’omission est impossible. Les valeurs sont typees, donc l’interpretation est deterministe.

La compression est un sous-produit de la clarification

C’est ici que quelque chose d’interessant se produit.

Rendre clair rend plus court.

En langage naturel, la clarte rend les choses plus longues. En representation structuree, la clarte rend les choses plus courtes.

Pourquoi ?

Parce que la plus grande partie de ce qui rend les phrases en langage naturel longues est le cout de la desambiguisation.

Dans “Kim Cheolsu, chef de section de l’equipe finance de Samsung Electronics”, “equipe finance de Samsung Electronics” et “chef de section” ne sont pas de l’information – ce sont des dispositifs d’identification. Ce sont des modificateurs pour circonscrire qui est “il”. Avec un identifiant unique, tous ces modificateurs disparaissent.

Dans “le lundi 15 janvier 2024”, le mot “lundi” est redondant. Le 15 janvier determine deja le jour de la semaine. Pourtant en langage naturel, une telle redondance est conventionnellement ajoutee pour plus de clarte. Dans un champ temporel type, une telle redondance est structurellement impossible.

En resultat de la clarification structurelle, l’expression devient plus courte que le langage naturel.

Ce n’est pas de la compression intentionnelle. C’est le resultat de la disparition du cout de desambiguisation.

Le paradoxe d’une seule phrase

Il y a quelque chose a admettre honnetement ici.

Pour une seule phrase, une representation structuree peut etre plus longue que le langage naturel.

“Yi Sun-sin etait grand.”

En langage naturel, c’est fait en 7 tokens. Convertissez-le en representation structuree – noeud d’entite, noeud d’attribut, arete de verbe, temps, champ de confiance – et le surcout structurel peut etre plus grand que la phrase elle-meme.

C’est vrai. Il y a un cout fixe a integrer la clarte dans la structure.

Mais a mesure que le nombre d’enonces augmente, une inversion se produit.

S’il y a 100 enonces sur Yi Sun-sin, le langage naturel ecrit “Yi Sun-sin” 100 fois. Dans une representation structuree, vous definissez le noeud Yi Sun-sin une fois et 100 aretes le referencent.

Si 50 enonces proviennent de la meme source, le langage naturel cite la source a chaque fois ou l’omet et devient ambigu. Dans une representation structuree, les metadonnees sont liees une seule fois.

A mesure que les enonces s’accumulent, les taux de partage de noeuds augmentent. A mesure que les taux de partage augmentent, les gains de la clarte structurelle croissent.

En pratique, l’inversion commence a environ 20 enonces. En context engineering, il est rare que les informations placees dans la fenetre comptent moins de 20 enonces.

En termes pratiques, la representation structuree est toujours claire et toujours plus courte.

La reaction en chaine que la clarte cree

La clarification ne produit pas seulement de la compression.

L’indexation devient possible. Quand il y a des identifiants non ambigus, une recherche precise devient possible. Chercher “chiffre d’affaires Apple” ne ramene pas “valeurs nutritives de la pomme”. Si l’identifiant encode le sens, un seul masque de bits reduit les candidats.

La validation devient possible. Quand la structure est typee, “est-ce une expression valide ?” peut etre juge mecaniquement. En langage naturel, le concept de “phrase invalide” n’existe pas. Dans une structure claire, si un champ obligatoire est vide, c’est invalide.

La verification de coherence devient possible. Quand les enonces sur la meme entite sont non ambigus, “ces deux enonces se contredisent-ils ?” peut etre juge mecaniquement. En langage naturel, determiner si “le PDG est A” et “le PDG est B” sont contradictoires necessite que l’IA lise les deux phrases et raisonne. Dans une structure claire – meme entite, meme relation, valeurs differentes – c’est auto-detecte.

La clarte est la precondition de l’ensemble du pipeline de context engineering. Indexation, validation, filtrage, verification de coherence – rien de tout cela ne fonctionne si l’information n’est pas claire.

La clarification n’est pas une etape du pipeline. C’est la condition qui rend le pipeline possible.

Resume

En langage naturel, clarte et brievete sont un compromis. Clair signifie long. Court signifie ambigu.

L’IA n’a pas de contexte partage. L’ambiguite du langage naturel devient la matiere premiere de l’hallucination. Resoudre l’ambiguite fait exploser le nombre de tokens et gaspille la fenetre.

Une representation structurellement claire brise ce compromis. Les identifiants uniques bloquent l’ambiguite a la source. Les champs types rendent l’omission impossible. Quand le cout de desambiguisation disparait, la compression suit comme sous-produit.

La clarification est la precondition du context engineering. Si l’information n’est pas claire, l’indexation, la validation et la verification de coherence ne fonctionnent pas.

La compression n’est pas le but. La clarification est le but. La compression suit.