L'IA a besoin d'un nouveau langage

GEUL — Un langage artificiel sémantiquement aligné pour une communication sans ambiguïté entre humains et IA

Pourquoi un langage artificiel est-il nécessaire ?

Le langage naturel a évolué pour la communication humaine. L'ambiguïté, la redondance et l'implicite sont des atouts pour les humains, mais des causes d'hallucination pour l'IA. Ni les langages de programmation ni les cadres sémantiques existants ne sont la réponse. Un nouveau langage artificiel satisfaisant six conditions simultanément est nécessaire.

Pourquoi le langage naturel cree-t-il des hallucinations ?

L'hallucination n'est pas un bug du LLM — c'est une inevitabilite structurelle causee par quatre defauts du langage naturel : ambiguite, absence de source, de confiance et de contexte temporel. Des modeles plus grands n'y remedient pas.

Pourquoi les vecteurs d'embedding ne suffisent pas

Réarranger les vecteurs d'embedding casse le modèle. Éviter la casse revient à reconstruire le modèle de zéro. Ce qu'il faut, ce n'est pas de la transparence à l'intérieur de la boîte noire, mais une couche transparente à l'extérieur.

Pourquoi l'esperanto a echoue

Les langues artificielles pour les humains ont echoue -- les langues artificielles pour l'IA sont differentes

Pourquoi Wikidata

GEUL ne rejette pas Wikidata. Il transforme le systeme de classification et les statistiques de frequence de 100 millions d'entites en livres de codes SIDX. La grammaire est construite par-dessus un dictionnaire.

Pourquoi WordNet ?

Construire un système de verbes à partir de zéro signifie des lacunes, des choix arbitraires et aucune justification. WordNet est une base de données lexicale de 40 ans avec 13 767 synsets de verbes créés par des linguistes. Nous empruntons le dictionnaire et construisons la grammaire par-dessus.

Pourquoi les annotations doivent être des index

Les annotations sont écrites pour les humains. Mais quand il y a 10 000 fonctions, les machines doivent aussi les lire. Si l'on transforme les annotations de récit en index, le scan complet devient une recherche instantanée.

Pourquoi il faut laisser vide

GEUL laisse vide 75% de son espace 64 bits. Les leçons d'IPv4, Unicode et ASCII nous enseignent : le coût de remplir est irréversible, mais le coût de laisser vide est zéro.