なぜ人工言語が必要なのか

自然言語は人類をここまで連れてきた。しかし、これ以上は進めない。

最も偉大な発明：自然言語

人類が生み出した最も偉大な技術は自然言語である。

火の発見でも、車輪の発明でも、半導体の発明でもない。そのすべてを可能にしたのが自然言語だ。

自然言語があったから、知識を伝えることができた。自然言語があったから、協力することができた。自然言語があったから、死者の思考を生者が受け継ぐことができた。

ホモ・サピエンスが地球を支配した理由は筋肉ではなく言語だ。数万年にわたり、自然言語は人類のあらゆる知的活動の媒介であった。

そして今、自然言語はAI時代のボトルネックとなった。

自然言語はなぜ誕生したか

この問題を理解するには、自然言語の本来の目的に立ち返らなければならない。

自然言語は人間と人間の間のリアルタイム通信のために進化した。

原始人類がサバンナで狩猟をしていたとき、「あそこにライオンがいる！」を伝えるために必要だったのは正確な論理構造ではなく、素早い伝達だった。

この進化的圧力が自然言語のあらゆる特性を決定した。

曖昧さは機能である。 「あそこ」が正確に何メートル先かを知る必要はない。聞き手が振り向けばライオンが見える。文脈が曖昧さを補う。

冗長性は機能である。 風の音で半分がかき消されても、意味が伝わらなければならない。だから自然言語は同じ意味を複数の方法で表現する。

暗示は機能である。 日本語で「お元気ですか」が文字通りの健康確認ではなく挨拶として機能するのは、共有された文化的文脈が暗示を解読してくれるからだ。

これらの特性はすべて、人間同士の通信においては長所だ。速く、柔軟で、文脈に適応する。

問題は、これをAIに使おうとするときに発生する。

AIにとって自然言語とは何か

現在のLLMは自然言語で入力を受け、自然言語で推論し、自然言語で出力する。

これはまるで化学実験をしながら、すべての測定を「かなり多い」「少し」「だいたいこれくらい」と記録するようなものだ。

「李舜臣（イ・スンシン）は偉大だった。」

この文をAIが処理するとき、何が起こるか。

誰が偉大だと言ったのか？　話者か？　歴史学界か？　韓国社会か？どのような基準で偉大なのか？　軍事的？　道徳的？　歴史的影響？いつの時点を基準にしているのか？　当時？　現在？どの程度確信しているのか？　事実？　意見？　推測？

自然言語にはこれらのうち何一つ明示されていない。すべてが「文脈から察してくれ」と暗示されているだけだ。

人間は、この暗示を解読するための数万年の進化的ハードウェアを持っている。表情、声のトーン、共有された経験、文化的背景。 AIにはこれがない。テキストしかない。

だからAIは推測する。そしてその推測を確信であるかのように述べる。われわれはこれを「ハルシネーション（Hallucination）」と呼ぶ。

ハルシネーションはバグではない。自然言語をAIの推論言語として使う限り、構造的に不可避な結果だ。

ハルシネーションは自然言語の曖昧さから生まれる

この点をより正確に指摘しよう。

LLMが「李舜臣（イ・スンシン）は露梁海戦で戦死した」と回答するとき、この文の根拠は何か。

訓練データにおいて、この文と類似したパターンが高い確率で出現したからだ。

しかし、そのパターンがどの出典から来たのか、その出典がどれほど信頼できるのか、この情報がいつの時点のものか、矛盾する他の記述が存在するか—— こうしたことは自然言語の出力に構造的に含めることができない。

自然言語にはメタデータのための場所がない。

「李舜臣は露梁海戦で戦死した」と「『朝鮮王朝実録』に李舜臣は露梁海戦で戦死したと記録されている」は、自然言語では長さが違うだけの二つの文にすぎない。

しかし認識論的には、まったく異なる種類の主張である。一つは事実の主張であり、もう一つは出典が明示された記述だ。

自然言語はこの違いを構造的に区別できない。だからAIも区別できない。だからハルシネーションが発生する。

プログラミング言語は答えではない

「では、プログラミング言語を使えばいいのではないか？」

プログラミング言語は曖昧でない。構造的だ。正確だ。しかしプログラミング言語は手続きを記述する言語であり、 世界を記述する言語ではない。

Pythonで「李舜臣は偉大だった」を表現してみよ。

is_great("李舜臣") == True

これは記述ではなくブール判定だ。誰が判定したのか、どのような根拠で、どのような文脈で、どの程度確信して—— プログラミング言語にはこうしたことを含める構造がない。

JSON、XML、RDFのようなデータフォーマットも同様だ。構造はあるが、その構造の意味を定義する統一された体系がない。すべてのプロジェクトが独自のスキーマを作り、それらのスキーマは互いに互換性がない。

自然言語は意味は豊かだが構造がない。プログラミング言語は構造はあるが意味がない。データフォーマットは構造も意味もあるが統一されていない。

必要なのは、別の種類の言語だ。

LLVMが示した道

コンピュータ科学に正確な先例がある。

1990年代、プログラミング言語は数十種あり、プロセッサアーキテクチャも数十種あった。すべての言語がすべてのアーキテクチャをサポートするには、 N × M 個のコンパイラが必要だった。

LLVMの解決策は中間表現（IR、Intermediate Representation）だった。

すべての言語はLLVM IRに変換される。 LLVM IRはすべてのアーキテクチャに変換される。 N + M 個の変換器があればよい。

ユーザーはLLVM IRを見ない。 C++を書き、実行ファイルを受け取る。 LLVM IRは見えないところで働く。

GEULはAIのためのLLVM IRだ。

すべての自然言語はGEULに変換される。 GEULはWMSに保存され、推論に使われ、再び自然言語に変換される。ユーザーはGEULを見ない。自然言語で質問し、自然言語で回答を受け取る。 GEULは見えないところで働く。

人工言語が満たすべき条件

自然言語の限界を超えつつ、その表現力を失わないためには、人工言語は以下の条件を同時に満たさなければならない。

1. 曖昧さの排除

「李舜臣は偉大だった」と入力されたとき、「誰が、どの文脈で、どの根拠で、どの確信度でそう記述したか」が構造的に明示されなければならない。空欄があれば空欄と表示されなければならない。暗示に依存しない。

2. メタデータの内蔵

すべての記述に出典、時点、信頼度、視点（POV）が別途の注釈ではなく、記述自体の構造として含まれなければならない。これがなければホワイトボックスAIは不可能だ。

3. LLM親和性

LLMがこの言語を「学習」できなければならない。人間にとって理解しやすい必要はない。トークン化が可能で、パターンが規則的で、固定された構造に従うことが重要だ。

4. グラフ表現力

世界はテーブルではなくグラフだ。エンティティがノードであり、関係がエッジだ。人工言語はグラフを自然にシリアライズできなければならない。

5. 事実と記述の分離

「李舜臣は1598年に死んだ」は事実ではない。「『朝鮮王朝実録』が李舜臣は1598年に死んだと記録した」が一次データだ。人工言語はこの区別を構造的に強制しなければならない。

6. 将来の拡張性

今日定義した体系が10年後にも、100年後にも、想像もつかない未来にも、下位互換を維持しながら拡張可能でなければならない。

なぜ既存の試みでは不十分なのか

こうした試みは初めてではない。

エスペラントは人間のための人工言語だった。構造的だが、AIの推論を担うための設計ではない。意味の精密さよりも学習の容易さを優先した。

OWL/RDFは機械のための意味表現体系だった。論理的には厳密だが、LLM以前の時代の設計だ。自然言語との変換が困難で、表現が冗長だ。そして致命的に遅い。大規模推論が現実的ではない。

**知識グラフ（Wikidata、Freebase）**は世界をグラフで表現した。しかし「記述」ではなく「事実」を保存する。「李舜臣は将軍だ」をトリプルとして保存するが、誰がそう主張したか、どの程度確信しているかは含まない。

Chain-of-ThoughtはLLMの推論過程を自然言語で記録する。良い方向だが、記録の媒体が自然言語であるため、曖昧さの問題を根本的に解決できない。

これらの試みはそれぞれ一つか二つの条件を満たすが、六つを同時に満たすものはない。

GEUL：六つの条件の交差点

GEULはこの六つの条件の交差点に立っている。

16ビットワードベースのストリームフォーマット。すべての記述に文脈、出典、確信度が構造的に内蔵される。ノードとエッジのパケットでグラフをシリアライズする。 LLMのトークンと1:1でマッピング可能な固定パターンに従う。事実ではなく記述（Claim）を一次データとして扱う。アドレス空間全体の50%を将来のために予約する。

GEULはユーザーには見えない。ユーザーは自然言語で話し、自然言語で答えを受け取る。その間でGEULが推論を構造化し、記録し、蓄積し、再利用可能にする。

自然言語の時代は終わらない

誤解してはならないことがある。

GEULは自然言語を置き換えるものではない。人間は引き続き自然言語で話し、書き、考えるだろう。自然言語は人間の言語として永遠に生き続ける。

GEULが置き換えるのは、 AIの内部で自然言語が担ってきた役割だ。

推論の媒介。知識の保存形式。システム間通信のプロトコル。

この役割において、自然言語はすでに限界に達している。その限界がハルシネーションとして、ブラックボックスとして、非効率として現れている。

自然言語は人類をここまで連れてきた。その功績は永遠だ。しかし次の段階に進むには、新しい言語が必要だ。

それが人工言語が必要な理由だ。

まとめ

自然言語の曖昧さは、人間の通信においては機能だが、AIの推論においては欠陥だ。

自然言語にはメタデータのための構造的な場所がない。
だからAIは出典、確信度、文脈なしに推論する。
だからハルシネーションが発生する。これはバグではなく構造的必然だ。
プログラミング言語は手続きを記述するが、世界を記述できない。
既存の意味表現体系はそれぞれ一つか二つの条件しか満たさない。
六つの条件を同時に満たす新しい人工言語が必要だ。

LLVM IRがプログラミング言語とハードウェアの間の見えない橋であるように、 GEULは自然言語とAI推論の間の見えない橋だ。