AI에게는 새로운 언어가 필요하다

GEUL — 인간과 AI가 모호성 없이 소통하기 위한 의미정렬 인공 언어

왜 RAG로는 부족한가

RAG는 자연어를 자연어인 채로 검색한다. 임베딩 유사도의 세 가지 근본 한계와, 구조화된 의미 검색이 왜 필요한지 분석한다.

왜 인공언어가 필요한가

자연어는 인간 통신을 위해 진화했다. 모호함, 중복, 암시는 인간에게 장점이지만 AI에게는 환각의 원인이다. 프로그래밍 언어도, 기존 의미 표현 체계도 답이 아니다. 여섯 조건을 동시에 만족하는 새로운 인공언어가 필요하다.

왜 탐색이 필요한가

색인이 윈도우를 넘기면, 검색이라는 패러다임 자체가 한계에 부딪힌다

왜 자연어는 환각을 만드는가

자연어의 모호함, 출처 부재, 확신도 부재, 시점 부재라는 네 가지 구조적 결함이 AI 환각을 만든다. 더 큰 모델이 아니라 더 나은 언어가 답이다.

왜 프로그래밍 언어로는 부족한가

프로그래밍 언어는 절차를 기술한다. 세계를 서술하지 못한다. JSON은 구조를 제공하지만 의미가 없다. LISP조차 구문을 빌려 쓸 뿐이다.

왜 임베딩 벡터로는 안 되는가

임베딩 벡터를 정렬하면 모델이 부서진다. 부서지지 않게 하려면 모델을 다시 만들어야 한다. 블랙박스의 내부가 아니라 외부에 투명한 층이 필요하다.

왜 위키데이터인가

GEUL은 위키데이터를 부정하지 않는다. 1억 개 엔티티의 분류 체계와 빈도 통계를 SIDX 코드북으로 변환한다. 사전 위에 문법을 얹는다.

왜 워드넷인가

동사 체계를 직접 만들면 빠지고, 자의적이고, 근거가 없다. 워드넷은 40년간 언어학자들이 축적한 13,767개 동사 사전이다. 이 사전 위에 문법을 얹는다.

왜 주석이 인덱스여야 하는가

주석은 사람을 위해 쓴다. 그러나 함수가 10,000개일 때 기계도 읽어야 한다. 주석을 서사에서 인덱스로 바꾸면, 풀스캔이 즉시 검색이 된다.

왜 비워둬야 하는가

GEUL은 64비트 중 75%를 비워둔다. IPv4, 유니코드, ASCII의 교훈 — 채우는 비용은 되돌릴 수 없지만 비워두는 비용은 0이다.