自然言語は人類をここまで連れてきた。しかし、これ以上は進めない。
最も偉大な発明:自然言語
人類が生み出した最も偉大な技術は自然言語である。
火の発見でも、車輪の発明でも、半導体の発明でもない。 そのすべてを可能にしたのが自然言語だ。
自然言語があったから、知識を伝えることができた。 自然言語があったから、協力することができた。 自然言語があったから、死者の思考を生者が受け継ぐことができた。
ホモ・サピエンスが地球を支配した理由は筋肉ではなく言語だ。 数万年にわたり、自然言語は人類のあらゆる知的活動の媒介であった。
そして今、自然言語はAI時代のボトルネックとなった。
自然言語はなぜ誕生したか
この問題を理解するには、自然言語の本来の目的に立ち返らなければならない。
自然言語は人間と人間の間のリアルタイム通信のために進化した。
原始人類がサバンナで狩猟をしていたとき、 「あそこにライオンがいる!」を伝えるために必要だったのは 正確な論理構造ではなく、素早い伝達だった。
この進化的圧力が自然言語のあらゆる特性を決定した。
曖昧さは機能である。 「あそこ」が正確に何メートル先かを知る必要はない。 聞き手が振り向けばライオンが見える。 文脈が曖昧さを補う。
冗長性は機能である。 風の音で半分がかき消されても、意味が伝わらなければならない。 だから自然言語は同じ意味を複数の方法で表現する。
暗示は機能である。 日本語で「お元気ですか」が文字通りの健康確認ではなく挨拶として機能するのは、 共有された文化的文脈が暗示を解読してくれるからだ。
これらの特性はすべて、人間同士の通信においては長所だ。 速く、柔軟で、文脈に適応する。
問題は、これをAIに使おうとするときに発生する。
AIにとって自然言語とは何か
現在のLLMは自然言語で入力を受け、自然言語で推論し、自然言語で出力する。
これはまるで化学実験をしながら、 すべての測定を「かなり多い」「少し」「だいたいこれくらい」と記録するようなものだ。
「李舜臣(イ・スンシン)は偉大だった。」
この文をAIが処理するとき、何が起こるか。
誰が偉大だと言ったのか? 話者か? 歴史学界か? 韓国社会か? どのような基準で偉大なのか? 軍事的? 道徳的? 歴史的影響? いつの時点を基準にしているのか? 当時? 現在? どの程度確信しているのか? 事実? 意見? 推測?
自然言語にはこれらのうち何一つ明示されていない。 すべてが「文脈から察してくれ」と暗示されているだけだ。
人間は、この暗示を解読するための数万年の進化的ハードウェアを持っている。 表情、声のトーン、共有された経験、文化的背景。 AIにはこれがない。テキストしかない。
だからAIは推測する。そしてその推測を確信であるかのように述べる。 われわれはこれを「ハルシネーション(Hallucination)」と呼ぶ。
ハルシネーションはバグではない。自然言語をAIの推論言語として使う限り、 構造的に不可避な結果だ。
ハルシネーションは自然言語の曖昧さから生まれる
この点をより正確に指摘しよう。
LLMが「李舜臣(イ・スンシン)は露梁海戦で戦死した」と回答するとき、 この文の根拠は何か。
訓練データにおいて、この文と類似したパターンが高い確率で出現したからだ。
しかし、そのパターンがどの出典から来たのか、 その出典がどれほど信頼できるのか、 この情報がいつの時点のものか、 矛盾する他の記述が存在するか—— こうしたことは自然言語の出力に構造的に含めることができない。
自然言語にはメタデータのための場所がない。
「李舜臣は露梁海戦で戦死した」と 「『朝鮮王朝実録』に李舜臣は露梁海戦で戦死したと記録されている」は、 自然言語では長さが違うだけの二つの文にすぎない。
しかし認識論的には、まったく異なる種類の主張である。 一つは事実の主張であり、もう一つは出典が明示された記述だ。
自然言語はこの違いを構造的に区別できない。 だからAIも区別できない。 だからハルシネーションが発生する。
プログラミング言語は答えではない
「では、プログラミング言語を使えばいいのではないか?」
プログラミング言語は曖昧でない。構造的だ。正確だ。 しかしプログラミング言語は手続きを記述する言語であり、 世界を記述する言語ではない。
Pythonで「李舜臣は偉大だった」を表現してみよ。
is_great("李舜臣") == True
これは記述ではなくブール判定だ。 誰が判定したのか、どのような根拠で、どのような文脈で、どの程度確信して—— プログラミング言語にはこうしたことを含める構造がない。
JSON、XML、RDFのようなデータフォーマットも同様だ。 構造はあるが、その構造の意味を定義する統一された体系がない。 すべてのプロジェクトが独自のスキーマを作り、 それらのスキーマは互いに互換性がない。
自然言語は意味は豊かだが構造がない。 プログラミング言語は構造はあるが意味がない。 データフォーマットは構造も意味もあるが統一されていない。
必要なのは、別の種類の言語だ。
LLVMが示した道
コンピュータ科学に正確な先例がある。
1990年代、プログラミング言語は数十種あり、 プロセッサアーキテクチャも数十種あった。 すべての言語がすべてのアーキテクチャをサポートするには、 N × M 個のコンパイラが必要だった。
LLVMの解決策は中間表現(IR、Intermediate Representation)だった。
すべての言語はLLVM IRに変換される。 LLVM IRはすべてのアーキテクチャに変換される。 N + M 個の変換器があればよい。
ユーザーはLLVM IRを見ない。 C++を書き、実行ファイルを受け取る。 LLVM IRは見えないところで働く。
GEULはAIのためのLLVM IRだ。
すべての自然言語はGEULに変換される。 GEULはWMSに保存され、推論に使われ、再び自然言語に変換される。 ユーザーはGEULを見ない。 自然言語で質問し、自然言語で回答を受け取る。 GEULは見えないところで働く。
人工言語が満たすべき条件
自然言語の限界を超えつつ、その表現力を失わないためには、 人工言語は以下の条件を同時に満たさなければならない。
1. 曖昧さの排除
「李舜臣は偉大だった」と入力されたとき、 「誰が、どの文脈で、どの根拠で、どの確信度でそう記述したか」が 構造的に明示されなければならない。 空欄があれば空欄と表示されなければならない。 暗示に依存しない。
2. メタデータの内蔵
すべての記述に出典、時点、信頼度、視点(POV)が 別途の注釈ではなく、記述自体の構造として含まれなければならない。 これがなければホワイトボックスAIは不可能だ。
3. LLM親和性
LLMがこの言語を「学習」できなければならない。 人間にとって理解しやすい必要はない。 トークン化が可能で、パターンが規則的で、 固定された構造に従うことが重要だ。
4. グラフ表現力
世界はテーブルではなくグラフだ。 エンティティがノードであり、関係がエッジだ。 人工言語はグラフを自然にシリアライズできなければならない。
5. 事実と記述の分離
「李舜臣は1598年に死んだ」は事実ではない。 「『朝鮮王朝実録』が李舜臣は1598年に死んだと記録した」が一次データだ。 人工言語はこの区別を構造的に強制しなければならない。
6. 将来の拡張性
今日定義した体系が10年後にも、100年後にも、 想像もつかない未来にも、下位互換を維持しながら拡張可能でなければならない。
なぜ既存の試みでは不十分なのか
こうした試みは初めてではない。
エスペラントは人間のための人工言語だった。 構造的だが、AIの推論を担うための設計ではない。 意味の精密さよりも学習の容易さを優先した。
OWL/RDFは機械のための意味表現体系だった。 論理的には厳密だが、LLM以前の時代の設計だ。 自然言語との変換が困難で、表現が冗長だ。 そして致命的に遅い。大規模推論が現実的ではない。
**知識グラフ(Wikidata、Freebase)**は世界をグラフで表現した。 しかし「記述」ではなく「事実」を保存する。 「李舜臣は将軍だ」をトリプルとして保存するが、 誰がそう主張したか、どの程度確信しているかは含まない。
Chain-of-ThoughtはLLMの推論過程を自然言語で記録する。 良い方向だが、記録の媒体が自然言語であるため、 曖昧さの問題を根本的に解決できない。
これらの試みはそれぞれ一つか二つの条件を満たすが、 六つを同時に満たすものはない。
GEUL:六つの条件の交差点
GEULはこの六つの条件の交差点に立っている。
16ビットワードベースのストリームフォーマット。 すべての記述に文脈、出典、確信度が構造的に内蔵される。 ノードとエッジのパケットでグラフをシリアライズする。 LLMのトークンと1:1でマッピング可能な固定パターンに従う。 事実ではなく記述(Claim)を一次データとして扱う。 アドレス空間全体の50%を将来のために予約する。
GEULはユーザーには見えない。 ユーザーは自然言語で話し、自然言語で答えを受け取る。 その間でGEULが推論を構造化し、 記録し、蓄積し、再利用可能にする。
自然言語の時代は終わらない
誤解してはならないことがある。
GEULは自然言語を置き換えるものではない。 人間は引き続き自然言語で話し、書き、考えるだろう。 自然言語は人間の言語として永遠に生き続ける。
GEULが置き換えるのは、 AIの内部で自然言語が担ってきた役割だ。
推論の媒介。 知識の保存形式。 システム間通信のプロトコル。
この役割において、自然言語はすでに限界に達している。 その限界がハルシネーションとして、ブラックボックスとして、非効率として現れている。
自然言語は人類をここまで連れてきた。 その功績は永遠だ。 しかし次の段階に進むには、新しい言語が必要だ。
それが人工言語が必要な理由だ。
まとめ
自然言語の曖昧さは、人間の通信においては機能だが、AIの推論においては欠陥だ。
- 自然言語にはメタデータのための構造的な場所がない。
- だからAIは出典、確信度、文脈なしに推論する。
- だからハルシネーションが発生する。これはバグではなく構造的必然だ。
- プログラミング言語は手続きを記述するが、世界を記述できない。
- 既存の意味表現体系はそれぞれ一つか二つの条件しか満たさない。
- 六つの条件を同時に満たす新しい人工言語が必要だ。
LLVM IRがプログラミング言語とハードウェアの間の見えない橋であるように、 GEULは自然言語とAI推論の間の見えない橋だ。