Pourquoi des affirmations, pas des faits ?

La verite disparait plus vite que la lumiere

Cet instant meme est deja le passe

En ce moment meme, alors que vous lisez cette phrase, l’instant ou cette phrase a ete ecrite est deja dans le passe.

La lumiere qui a atteint vos yeux a voyage depuis l’ecran, mettant quelques nanosecondes pour atteindre votre retine. Le signal de votre retine met des dizaines de millisecondes pour voyager par le nerf optique jusqu’a votre cerveau. Votre cerveau met des centaines de millisecondes pour interpreter ce signal comme une “phrase”.

Au moment ou vous sentez que vous avez “lu” cette phrase, l’instant ou cette phrase existait sur l’ecran est deja a des centaines de millions de nanosecondes dans le passe.

Ce n’est pas une metaphore. C’est de la physique.

La verite est inaccessible

Dans le monde physique, un “evenement” est un point dans l’espace-temps.

A l’instant ou un evenement se produit, il emet de l’information. Des photons, des ondes sonores, des ondes gravitationnelles, des traces chimiques. Cette information se propage a la vitesse de la lumiere ou en dessous.

Mais l’evenement lui-meme ? L’etat complet au moment et a l’endroit exacts ou il s’est produit ?

Il disparait dans le passe plus vite que la vitesse de la lumiere.

0,001 seconde apres l’evenement, il est deja dans le passe. Aucun observateur ne peut acceder a l’evenement “lui-meme”. Ce qui nous parvient, ce sont toujours les traces que l’evenement a laissees derriere lui.

Des photons reflechis. Du texte enregistre. Des rumeurs relayees. Des donnees mesurees.

Tous des fragments. Des fragments de verite. Pas la verite elle-meme.

Le cerveau ne stocke pas des faits

Les neurosciences ont revele une verite inconfortable.

La memoire humaine n’est pas un enregistrement. C’est une reconstruction.

Quand vous vous souvenez “j’ai vu une voiture rouge hier”, il n’y a pas de photographie d’une “voiture rouge” stockee dans votre cerveau.

Ce qui se passe reellement est ceci :

Des photons atteignent la retine.
Les cellules a cones de la retine convertissent des longueurs d’onde specifiques en signaux.
Le cortex visuel assemble ces signaux en motifs.
L’hippocampe encode ces motifs avec leur contexte.
Pendant le sommeil, ces codes sont reorganises et comprimes.

Le souvenir “j’ai vu une voiture rouge” est un produit reassemble au moment de la recuperation a partir de fragments disperses dans plusieurs regions du cerveau.

C’est pourquoi les souvenirs changent. Chaque fois que vous vous rappelez le meme evenement, il est reconstruit legerement differemment. De nouvelles experiences contaminent les vieux souvenirs. Vous pouvez meme vous souvenir de choses qui ne se sont jamais produites.

Ce que le cerveau stocke, ce ne sont pas des “faits”. Ce que le cerveau stocke, c’est “voila comment je l’ai ressenti, voila comment ca avait l’air, voila comment je l’ai interprete” — des affirmations.

Toute connaissance est constituee d’affirmations

Etendez ce principe de la memoire individuelle au savoir civilisationnel, et la meme structure se repete.

L’histoire : “Yi Sun-sin est mort a la bataille de Noryang en 1598.”

Est-ce un fait ?

Ce que nous avons : Il y a des archives dans les Annales de la dynastie Joseon. Il y a des archives dans les OEuvres completes de l’amiral Yi. Il y a des archives japonaises. Il y a des siecles d’interpretation savante.

Toutes sont des affirmations. Des affirmations narrees par differentes sources, a differents moments, depuis differentes perspectives.

“Yi Sun-sin est mort en 1598” n’est pas un fait — c’est un consensus de ces affirmations. Un consensus de tres haute confiance, mais toujours un consensus.

La science : “La vitesse de la lumiere est de 299 792 458 m/s.”

Est-ce un fait ?

Ce que nous avons : D’innombrables experiences ont mesure cette valeur. La theorie physique actuelle predit cette valeur. Le Bureau international des poids et mesures a adopte cette valeur comme definition.

Toutes sont des affirmations. Des affirmations passees par les limites des instruments de mesure, les hypotheses des theories et les procedures de consensus. La probabilite qu’une mesure plus precise demain revise cette valeur est extremement faible, mais en principe, elle n’est pas nulle.

Les informations : “La bourse a baisse de 3% aujourd’hui.”

Est-ce un fait ?

C’est un nombre enregistre par le systeme de la bourse. Sous la premisse que le systeme a fonctionne correctement. Selon quel point de reference definit les “3%”.

Cela ressemble a un fait, mais strictement parlant, c’est une affirmation enregistree par un systeme specifique dans des conditions specifiques.

La hierarchie de la verite

Un systeme de connaissances correct doit refleter cette realite epistemologique dans sa conception.

Si la verite est inaccessible, alors tout ce que nous pouvons manipuler, ce sont des affirmations sur la verite.

Sur une collection d’affirmations, on peut calculer le consensus et la confiance.

Cela peut etre structure en quatre couches.

L3 — Narration/Observation : “Ce journaliste, a ce moment, de ce point de vue, a rapporte ceci.” La donnee la plus primitive. Subjective et individuelle. La donnee primaire qu’un systeme de connaissances traite directement.

L2 — Consensus/Vue etablie : “En synthetisant plusieurs narrations, voici le recit le plus plausible.” Le resultat de l’agregation de plusieurs affirmations L3. Probabiliste et provisoire.

L1 — Regles/Lois : “Dans ce monde, cette regle opere.” Lois de la physique, regles du jeu, normes sociales. Si elles sont enfreintes, le systeme entre dans un etat de contradiction.

L0 — Mathematiques/Logique : 1+1=2. Les regles des operations logiques. Cela seul n’est pas une affirmation. C’est la regle de fonctionnement du moteur. Pas des donnees.

Le point cle est le suivant :

Le point de depart est toujours L3 — les affirmations. Les couches restantes sont des derives calculees sur les affirmations.

Pourquoi les systemes existants stockent-ils des faits ?

Regardez Wikidata.

Q8492 (Yi Sun-sin)
  - instance of: human
  - occupation: naval commander
  - date of death: 1598-12-16

Il n’y a pas de “qui a fait cette affirmation”. Il n’y a pas de “quel est le niveau de confiance”. Il n’y a pas de “y a-t-il des affirmations contradictoires”.

L’assertion que la date de deces de Yi Sun-sin est le 16 decembre 1598 est le resultat d’un consensus entre de multiples archives historiques et chercheurs, pourtant Wikidata la stocke comme si c’etait une verite universelle.

Dans la plupart des cas, ce n’est pas un probleme. Parce que la confiance du consensus est suffisamment elevee.

Mais considerez ces situations :

Deux medias publient des reportages contradictoires sur le meme evenement. Un historien presente une nouvelle interpretation qui contredit la vue etablie. Un article scientifique echoue a reproduire des resultats experimentaux existants.

Dans un systeme qui stocke des “faits”, c’est une erreur. L’un des deux a tort. Il doit etre corrige.

Dans un systeme qui stocke des “affirmations”, c’est normal. Differentes sources, depuis differentes perspectives, ont fait differentes affirmations. Les deux affirmations sont enregistrees. Le consensus et la confiance sont calcules par-dessus.

La realite n’est pas propre. La contradiction fait partie de la realite. Un systeme qui traite la contradiction comme une erreur ne peut pas contenir la realite.

L’origine physique de l’hallucination

Reexaminons le probleme de l’hallucination des LLM sous cet angle.

Les LLM sont entraines sur des milliards de phrases. Chaque phrase est une affirmation ecrite par quelqu’un dans un certain contexte.

Mais les LLM les apprennent non pas comme des “affirmations” mais comme des “faits sur le monde”.

Les sources disparaissent. Le contexte disparait. La confiance disparait. Les perspectives disparaissent.

Ce qui reste ne sont que des motifs statistiques.

Ainsi un LLM ne peut pas distinguer entre “Yi Sun-sin est mort en 1598” et “Yi Sun-sin aimait les expressions de quatre caracteres”. Les deux phrases peuvent apparaitre avec une haute probabilite dans les donnees d’entrainement, et sans information de source, il n’y a aucun moyen de savoir que l’une est une narration historique etablie et l’autre est une affirmation inexistante.

C’est l’origine physique de l’hallucination.

Quand des fragments de verite perdent leurs sources et se melangent, des “faits” inexistants sont fabriques.

La solution est claire. Traiter les fragments comme des fragments. Enregistrer les affirmations comme des affirmations. Preserver structurellement les sources, le contexte et la confiance.

Une solution structurelle

Un systeme de connaissances correct doit traiter chaque narration comme une affirmation.

Quand une phrase en langage naturel est convertie en representation structuree, elle doit inclure :

Qui a fait l’affirmation — Entite source Quand a-t-elle ete affirmee — Contexte temporel Dans quel monde se situe cette affirmation — Contexte du monde De quel point de vue — POV (Point de Vue) Quel est le niveau de confiance — Niveau de confiance

Ce n’est pas optionnel. La structure d’un tel systeme exige ces informations. Si un champ est vide, il est explicitement marque comme vide.

Quand “Yi Sun-sin etait grand” est converti en representation structuree :

[Entity: Yi Sun-sin]
[Verb: be great (verbe evaluatif)]
[POV: Locuteur (participant actuel de la conversation)]
[Time: Moment present]
[Confidence: Non specifie]
[Source: Enonciation directe du locuteur]
[World: Monde reel]

Meme pour la phrase identique en langage naturel “Yi Sun-sin etait grand”, la representation est entierement differente selon que c’est narre par un manuel d’histoire, prononce comme une impression personnelle d’un individu, ou dit par un personnage de roman.

L’ambiguite est structurellement eliminee. Les affirmations sont enregistrees comme des affirmations. Les fragments de verite sont preserves comme des fragments.

La carte n’est pas le territoire

Le savant polono-americain Alfred Korzybski a dit :

“La carte n’est pas le territoire.”

Ce dont nous avons besoin, c’est d’un langage pour dessiner des cartes. Un moteur qui collecte des cartes et reconstitue le territoire par ingenierie inverse.

Une carte n’est pas une replique parfaite du territoire. Une carte est une representation dessinee par quelqu’un, dans un certain but, a une certaine echelle. Il peut y avoir des dizaines de cartes de la meme ville. Cartes touristiques, cartes topographiques, cartes de transports, cartes de densite de population. Toutes sont des affirmations differentes sur le meme territoire.

Aucune carte n’est le territoire lui-meme. Mais en superposant plusieurs cartes, notre comprehension du territoire s’approfondit.

C’est ainsi qu’un systeme de connaissances base sur les affirmations traite le monde. Il enregistre d’innombrables affirmations sous forme structuree, decouvre des consensus et des motifs par-dessus, et construit une comprehension de plus en plus precise du territoire.

Mais il n’affirme jamais, “Ceci est le territoire lui-meme.”

Resume

La verite est physiquement inaccessible.

Les evenements disparaissent dans le passe au moment ou ils se produisent. Plus vite que la lumiere.
Tout ce qui reste, ce sont des fragments de verite. Des photons, des archives, des temoignages.
Meme le cerveau ne stocke pas de faits. Il stocke des affirmations reconstruites a partir de fragments.
Par consequent, la donnee primaire d’un systeme de connaissances ne peut pas etre des faits. Ce doit etre des affirmations.
Si vous traitez les affirmations comme des faits, la contradiction devient une erreur. Si vous les traitez comme des affirmations, la contradiction devient une donnee.
L’hallucination des LLM est le resultat d’affirmations ayant perdu leurs sources.
Un tel systeme integre structurellement la source, le temps, la perspective et la confiance dans chaque narration.

Nous ne manipulons pas la verite. Nous manipulons des phrases sur la verite. Ce n’est pas de l’humilite. C’est de la physique.