왜 자연어는 환각을 만드는가

환각은 버그가 아니다. 자연어를 쓰는 한 피할 수 없는 구조적 필연이다.

자연어라는 기적

10만 년 전, 음성 언어가 나타났다. 영장류가 서로 털을 골라주며 유지할 수 있었던 사회 관계는 150명이 한계였다. 언어는 이 한계를 깨뜨렸다. 한 사람이 여러 명에게 동시에 말할 수 있게 되자, 부족이라는 새로운 규모의 사회가 가능해졌다.

1만 년 전, 농업이 식량 잉여를 만들었고, 사람들이 한 곳에 모여 도시가 되었다. 5천 년 전, 메소포타미아의 누군가가 젖은 점토판에 쐐기 기호를 새겼다. 곡물 재고를 기록하기 위해서였다. 문자의 탄생이다. 말은 사라지지만 기록은 남았다. 기록이 남자 관료제가 가능해졌고, 법률이 가능해졌고, 국가가 가능해졌다.

음성 언어가 부족을 만들었고, 문자가 국가를 만들었다.

자연어는 인간이 만든 가장 위대한 기술이다. 불의 발견도, 바퀴의 발명도, 반도체의 발명도 아니다. 그 모든 것을 가능하게 한 것이 자연어다. 자연어가 있었기에 지식을 전달할 수 있었고, 협력할 수 있었고, 죽은 자의 생각을 산 자가 이어받을 수 있었다. 수만 년 동안 자연어는 인류 문명 전체의 매개체였다.

그리고 지금, 그 위대한 자연어가 AI 시대의 병목이 되었다.

환각이라는 이름의 오해

AI가 거짓을 말하면 우리는 이것을 “환각(Hallucination)“이라 부른다.

이 이름에는 암시가 담겨 있다. 환각은 비정상이라는 암시. 고치면 사라질 수 있다는 암시. 더 좋은 모델이 나오면 해결될 것이라는 암시.

이것은 오해다.

환각은 LLM의 버그가 아니다. 환각은 자연어를 AI의 추론 언어로 사용하는 한 발생할 수밖에 없는 구조적 필연이다.

모델을 아무리 키워도, 데이터를 아무리 늘려도, RLHF를 아무리 정교하게 해도, 자연어가 입력이고 자연어가 출력인 한 환각은 사라지지 않는다.

왜 그런지 설명하겠다.

자연어의 네 가지 구조적 결함

자연어는 인간과 인간 사이의 통신을 위해 진화했다. 그 과정에서 획득한 네 가지 특성이 AI 추론에서는 치명적 결함으로 작용한다.

결함 1: 모호함

“그는 은행에 갔다.”

은행(bank)은 금융기관인가, 강둑인가? 그는 누구인가? 언제 갔는가?

인간은 맥락으로 해소한다. 대화의 흐름, 화자의 표정, 공유된 배경지식.

AI에게는 텍스트밖에 없다. 텍스트만으로는 모호함을 완전히 해소할 수 없다. 해소할 수 없으면 추측한다. 추측은 때때로 틀린다. 틀린 추측이 확신처럼 출력되면 그것이 환각이다.

결함 2: 출처의 부재

“이순신은 12척의 배로 133척을 물리쳤다.”

이 문장에는 출처가 없다.

누가 이렇게 주장했는가? 어떤 사료에 근거하는가? 학계에서 이 숫자에 이견은 없는가?

자연어에는 메타데이터를 위한 구조적 자리가 없다. 출처를 넣으려면 문장을 길게 늘여야 하고, 길게 늘이면 핵심이 흐려진다. 그래서 대부분의 자연어 문장에서 출처는 생략된다. 이 문제는 왜 사실이 아니라 주장인가에서 더 깊이 다룬다.

LLM은 수십억 개의 이런 문장으로 학습된다. 출처가 생략된 주장들이 뒤섞여서 하나의 거대한 통계적 수프가 된다.

이 수프 안에서 “12척"이라는 숫자의 근거를 추적하는 것은 원리적으로 불가능하다. 근거를 추적할 수 없으니, 근거 없는 숫자를 만들어낼 수도 있다. 그것이 환각이다.

결함 3: 확신도의 부재

“지구는 둥글다.” “다크 에너지가 우주의 68%를 차지한다.” “내일 비가 올 것이다.”

세 문장의 확신도는 전혀 다르다.

첫 번째는 압도적 합의. 두 번째는 현재 최선의 추정이지만 이론이 바뀔 수 있다. 세 번째는 확률적 예측.

그러나 자연어에서 세 문장은 동일한 문법 구조를 가진다. 주어 + 서술어. 평서문. 마침표.

자연어는 “이것이 얼마나 확실한가"를 구조적으로 표현하지 못한다. “아마”, “거의 확실히”, “~일 수도 있다” 같은 부사적 장치가 있지만, 이것은 선택 사항이고, 정밀하지 않고, 대부분 생략된다.

LLM은 모든 문장을 동일한 확신도로 학습한다. “지구는 둥글다"와 “다크 에너지가 68%다"의 확신도 차이를 모델이 내부적으로 구분할 방법이 없다.

그래서 추정을 사실처럼 말하고, 가설을 정설처럼 말하고, 불확실한 것을 확실하게 말한다. 그것이 환각이다.

결함 4: 시점의 부재

“테슬라의 CEO는 일론 머스크다.”

이 문장은 언제 기준인가?

2024년에는 맞다. 2030년에는 모른다. 작성 시점이 명시되어 있지 않으면 이 문장의 유효 기간을 알 수 없다.

자연어 문장은 시점을 생략하는 경우가 대부분이다. “현재형"은 “지금"을 의미하기도 하고 “일반적으로"를 의미하기도 한다.

LLM은 2020년 기사와 2024년 기사를 같은 데이터로 학습한다. 시점 정보가 구조적으로 보존되지 않으니, 과거의 사실을 현재의 사실처럼 말하거나, 서로 다른 시점의 정보를 뒤섞어서 말한다. 그것이 환각이다.

네 결함의 합류

환각은 이 네 가지 결함이 합류할 때 폭발적으로 증가한다.

하나의 LLM 출력을 분석해보자.

“이순신은 12척의 배로 왜군 330척을 격파하고, 이후 노량해전에서 전사하며 ‘나의 죽음을 알리지 말라’고 유언했다.”

이 문장에서:

모호함: “격파"의 정확한 의미는? 침몰? 퇴각? 부분 손상?

출처 부재: 12척과 330척의 근거는? 서로 다른 사료가 다른 숫자를 제시하는데, 어느 것을 따랐는가?

확신도 부재: “나의 죽음을 알리지 말라"는 역사적으로 확인된 유언인가, 후대의 전승인가? 이 둘의 확신도는 다른데, 동일한 평서문으로 나열되어 있다.

시점 부재: 이 정보는 어느 시점의 학술적 합의를 반영하는가?

LLM은 이 모든 모호함을 “가장 그럴듯한 토큰 시퀀스"로 채운다. 그럴듯함은 정확함이 아니다. 그 간극이 환각이다.

더 큰 모델이 해결할 수 없는 이유

“GPT-5가 나오면 환각이 줄어들지 않을까?”

줄어든다. 그러나 사라지지 않는다.

더 큰 모델은 더 많은 데이터에서 더 정교한 패턴을 학습한다. 그래서 “그럴듯함"의 정확도가 올라간다.

그러나 근본적인 문제는 변하지 않는다.

입력이 자연어인 한, 모호함은 그대로다. 학습 데이터가 자연어인 한, 출처는 소실된 채로다. 출력이 자연어인 한, 확신도는 표현되지 않는다. 시점 정보가 구조에 없는 한, 시간은 뒤섞인 채로다.

모델 크기를 100배로 늘려도 자연어의 구조적 결함은 100배로 커지지 않을 뿐 0이 되지는 않는다.

이것은 해상도의 문제가 아니라 매체의 문제다.

흑백 사진의 해상도를 아무리 높여도 색이 나타나지 않듯, 자연어의 정밀도를 아무리 높여도 출처, 확신도, 시점이 구조에 나타나지 않는다.

색을 원하면 컬러 필름이 필요하다. 환각을 없애려면 다른 언어가 필요하다.

구조적 해결의 조건

이 네 가지 결함을 해결하려면, 언어의 구조 자체가 달라야 한다.

모호함 -> 명시적 구조화. “그는 은행에 갔다"가 구조화된 언어로 변환될 때, “그"는 특정 엔티티 SIDX로, “은행"은 금융기관 또는 강둑의 SIDX로 확정된다. 확정할 수 없으면 “미확정"이라고 명시된다. 모호함을 해소하거나, 모호하다는 것 자체를 기록한다.

출처 부재 -> 출처 내장. 모든 서술에는 출처 엔티티가 구조적으로 포함된다. “누가 이렇게 주장했는가"가 서술의 일부다. 선택 사항이 아니다. 빈 칸이면 빈 칸이라고 표시된다.

확신도 부재 -> 확신도 내장. 모든 동사 엣지에는 확신도 필드가 있다. “확실하다”, “추정이다”, “가설이다"가 동사의 한정사로 구조적으로 명시된다.

시점 부재 -> 시간 맥락 내장. 모든 서술에는 시간 컨텍스트가 포함된다. “이 서술은 언제 기준인가"가 항상 명시된다.

자연어에서 생략되는 것들이 구조화된 언어에서는 구조의 일부로 존재한다.

생략이 불가능하면 환각이 발생할 여지가 줄어든다. 왜 명료화가 필요한가에서 이 원리를 설명한다. 근거 없이 말할 수 없으면, 근거 없는 말이 만들어지지 않는다.

환각의 종말은 언어의 교체에 있다

환각을 줄이기 위한 현재의 접근들을 보자.

RAG(Retrieval-Augmented Generation): 외부 문서를 검색해서 컨텍스트로 제공한다. 효과적이지만, 검색된 문서도 자연어이므로 모호함, 출처 부재, 확신도 부재 문제가 그대로 따라온다. 왜 RAG로는 부족한가에서 이 한계를 자세히 다룬다.

RLHF: “확실하지 않으면 모른다고 말하라"고 훈련한다. 환각의 빈도를 줄이지만, 자연어에 확신도 구조가 없는 근본 문제를 해결하지 못한다.

Chain-of-Thought: 추론 과정을 자연어로 기록한다. 방향은 맞지만, 기록의 매체가 자연어이므로 같은 결함을 상속한다.

이 모든 접근은 자연어의 틀 안에서 환각을 완화하려는 시도다. 효과가 있다. 하지만 근본적이지 않다.

근본적 해결은 AI 내부에서 자연어를 걷어내는 것이다.

사용자와의 인터페이스는 자연어로 유지한다. 인간은 계속 자연어로 말하고, 자연어로 답을 받는다.

그러나 AI 내부에서 추론하고, 기록하고, 검증하는 언어는 자연어가 아닌 다른 것이어야 한다.

출처가 구조에 있는 언어. 확신도가 구조에 있는 언어. 시점이 구조에 있는 언어. 모호함이 명시적으로 처리되는 언어.

음성 언어가 부족을 만들었고, 문자가 국가를 만들었다. 세 번째 언어는 무엇을 만들 것인가.

환각의 종말은 더 큰 모델이 아니라 더 나은 언어에 있다.

요약

환각은 자연어의 네 가지 구조적 결함에서 태어난다.

모호함: 맥락 없이는 해소 불가능. AI는 추측하고, 추측은 틀린다.
출처 부재: 주장의 근거가 소실된다. 근거 없는 조합이 만들어진다.
확신도 부재: 사실과 추정이 동일한 문법으로 표현된다. AI는 구분하지 못한다.
시점 부재: 서로 다른 시점의 정보가 뒤섞인다.

더 큰 모델은 환각을 줄이지만 없애지 못한다. 매체를 바꾸지 않으면 구조적 결함은 남는다.

흑백 필름의 해상도를 높여도 색은 나타나지 않는다. 색을 원하면 필름을 바꿔야 한다.