왜 사실이 아니라 주장인가

진실은 빛의 속도보다 빠르게 사라진다

지금 이 순간은 이미 과거다

당신이 이 문장을 읽고 있는 지금, 이 문장이 쓰여진 순간은 이미 과거에 있다.

당신의 눈에 도달한 빛은 화면에서 출발한 뒤 수 나노초를 여행해서 망막에 닿았다. 망막의 신호가 시신경을 타고 뇌에 도달하는 데 수십 밀리초. 뇌가 그 신호를 “문장"으로 해석하는 데 수백 밀리초.

당신이 이 문장을 “읽었다"고 느끼는 순간, 이 문장이 화면에 존재했던 그 순간은 이미 수억 나노초 전의 과거다.

이것은 비유가 아니다. 이것은 물리학이다.

진실은 접근 불가능하다

물리적 세계에서 “사건"이란 시공간의 한 점이다.

사건이 일어나는 순간, 그 사건은 정보를 방출한다. 광자, 음파, 중력파, 화학적 흔적. 이 정보는 빛의 속도 이하로 전파된다.

그러나 사건 그 자체는? 사건이 일어난 바로 그 순간, 그 장소에서의 완전한 상태는?

빛의 속도보다 빠르게 과거로 사라진다.

사건이 일어난 0.001초 후, 이미 그 사건은 과거다. 어떤 관측자도 사건 “그 자체"에 접근할 수 없다. 우리에게 도달하는 것은 항상, 사건이 남긴 흔적이다.

반사된 광자. 기록된 문자. 전해진 소문. 측정된 데이터.

전부 파편이다. 진실의 파편. 진실 자체가 아닌.

뇌에는 사실이 저장되지 않는다

신경과학이 밝혀낸 불편한 진실이 있다.

인간의 기억은 녹화가 아니다. 재구성이다.

“나는 어제 빨간 차를 봤다"고 기억할 때, 뇌에 “빨간 차"의 사진이 저장되어 있는 것이 아니다.

실제로 일어나는 일은 이렇다:

광자가 망막에 도달한다.
망막의 원추세포가 특정 파장을 신호로 변환한다.
시각 피질이 이 신호들을 패턴으로 조합한다.
해마가 이 패턴을 맥락과 함께 부호화한다.
수면 중에 이 부호가 재배치되고 압축된다.

“빨간 차를 봤다"는 기억은 여러 뇌 영역에 흩어진 파편들이 인출 시점에 다시 조립된 결과물이다.

그래서 기억은 변한다. 같은 사건을 떠올릴 때마다 미세하게 다르게 재구성된다. 새로운 경험이 과거의 기억을 오염시킨다. 심지어 일어나지 않은 일을 기억할 수도 있다.

뇌에 저장되는 것은 “사실"이 아니다. 뇌에 저장되는 것은 “이렇게 느꼈다, 이렇게 보였다, 이렇게 해석했다"는 주장(Claim)이다.

모든 지식은 주장이다

이 원리를 개인의 기억에서 문명의 지식으로 확장하면, 같은 구조가 반복된다.

역사: “이순신은 1598년 노량해전에서 전사했다.”

이것은 사실인가?

우리가 가진 것은: 조선왕조실록의 기록이 있다. 이충무공전서의 기록이 있다. 일본측 기록이 있다. 수백 년간의 학자들의 해석이 있다.

전부 주장이다. 각각의 출처가, 각각의 시점에서, 각각의 관점으로 서술한 주장.

“이순신은 1598년에 전사했다"는 사실이 아니라, 이 주장들의 합의(Consensus)다. 매우 높은 신뢰도의 합의이지만, 여전히 합의일 뿐이다.

과학: “빛의 속도는 299,792,458 m/s이다.”

이것은 사실인가?

우리가 가진 것은: 수많은 실험이 이 값을 측정했다. 현재의 물리 이론이 이 값을 예측한다. 국제도량형국이 이 값을 정의로 채택했다.

전부 주장이다. 측정 장비의 한계, 이론의 가정, 합의 절차를 거친 주장들. 내일 더 정밀한 측정이 이 값을 수정할 가능성은 극히 낮지만 원리적으로 0이 아니다.

뉴스: “오늘 주가가 3% 하락했다.”

이것은 사실인가?

거래소의 시스템이 기록한 숫자다. 그 시스템이 정확하게 작동했다는 전제 하에. “3%“라는 숫자가 어떤 기준 시점 대비인지에 따라.

사실처럼 보이지만, 엄밀히는 특정 시스템이 특정 조건에서 기록한 주장이다.

진실의 계층 구조

올바른 지식 시스템은 이 인식론적 현실을 설계에 반영해야 한다.

진실이 접근 불가능하다면, 우리가 다룰 수 있는 것은 진실에 대한 주장들뿐이다.

주장들의 집합 위에서, 합의와 신뢰도를 계산할 수는 있다.

이것을 4개의 계층으로 구조화할 수 있다.

L3 – 서술/관측: “이 기자가, 이 시점에, 이 관점에서, 이렇게 보도했다.” 가장 원시적인 데이터. 주관적이고 개별적이다. 지식 시스템이 직접 다루는 1차 데이터.

L2 – 합의/정설: “다수의 서술을 종합하면, 이것이 가장 그럴듯하다.” 여러 L3 주장들을 집계한 결과. 확률적이고 잠정적이다.

L1 – 규칙/법칙: “이 세계에서는 이 규칙이 작동한다.” 물리 법칙, 게임 규칙, 사회적 규범. 깨지면 시스템이 모순 상태가 된다.

L0 – 수학/논리: 1+1=2. 논리 연산의 규칙. 이것만이 유일하게 주장이 아니다. 이것은 엔진의 작동 규칙이다. 데이터가 아니다.

핵심은 이것이다:

출발점은 항상 L3, 즉 주장이다. 나머지 계층은 주장들 위에서 계산된 파생물이다.

왜 기존 시스템은 사실을 저장하는가

위키데이터를 보자.

Q8492 (이순신)
  - instance of: human
  - occupation: naval commander
  - date of death: 1598-12-16

여기에 “누가 이렇게 주장했는가"는 없다. “얼마나 확신하는가"도 없다. “상충하는 다른 주장이 있는가"도 없다.

이순신의 사망일이 1598년 12월 16일이라는 것은 여러 사료와 학자들의 합의 결과인데, 위키데이터는 이것을 마치 우주의 진리인 것처럼 저장한다.

대부분의 경우 이것은 문제가 되지 않는다. 합의의 신뢰도가 충분히 높기 때문이다.

그러나 이런 상황을 생각해보라:

두 뉴스 매체가 같은 사건에 대해 상반된 보도를 한다. 한 역사학자가 통설에 반하는 새로운 해석을 제시한다. 과학 논문이 기존 실험 결과를 재현하지 못한다.

“사실"을 저장하는 시스템에서 이것은 에러다. 둘 중 하나가 틀린 것이다. 수정해야 한다.

“주장"을 저장하는 시스템에서 이것은 정상이다. 서로 다른 출처가, 서로 다른 관점에서, 서로 다른 주장을 한 것이다. 두 주장 모두 기록된다. 합의와 신뢰도는 그 위에서 계산된다.

현실은 깔끔하지 않다. 모순은 현실의 일부다. 모순을 에러로 처리하는 시스템은 현실을 담을 수 없다.

환각의 물리학적 기원

LLM의 환각 문제를 이 관점에서 다시 보자.

LLM은 수십억 개의 문장으로 학습되었다. 각 문장은 누군가가 어떤 맥락에서 쓴 주장이다.

그러나 LLM은 이것들을 “주장"이 아니라 “세계에 대한 사실"로 학습한다.

출처는 사라진다. 맥락은 사라진다. 신뢰도는 사라진다. 관점은 사라진다.

남는 것은 통계적 패턴뿐이다.

그래서 LLM은 “이순신은 1598년에 전사했다"와 “이순신은 사자성어를 좋아했다"를 구분하지 못한다. 두 문장 모두 학습 데이터에서 높은 확률로 등장할 수 있고, 출처 정보 없이는 하나가 합의된 역사적 서술이고 다른 하나가 존재하지 않는 주장인지 알 수 없다.

이것이 환각의 물리학적 기원이다.

진실의 파편들이 출처를 잃고 뒤섞이면, 존재하지 않는 “사실"이 만들어진다.

해법은 명확하다. 파편을 파편으로 다뤄야 한다. 주장을 주장으로 기록해야 한다. 출처와 맥락과 신뢰도를 구조적으로 보존해야 한다.

구조적 해법

올바른 지식 시스템은 모든 서술을 주장으로 다뤄야 한다.

자연어 문장이 구조화된 표현으로 변환될 때, 반드시 포함되는 것들:

누가 주장했는가 – 출처 엔티티 언제 주장했는가 – 시간 맥락 어떤 세계에서의 주장인가 – 월드 컨텍스트 어떤 관점에서의 주장인가 – POV(Point of View) 얼마나 확신하는가 – 확신도

이것은 선택 사항이 아니다. 이런 시스템의 구조 자체가 이 정보를 요구한다. 빈 칸이 있으면 빈 칸이라고 명시된다.

“이순신은 위대했다"가 구조화된 표현으로 변환되면:

[Entity: 이순신]
[Verb: 위대하다 (평가 동사)]
[POV: 화자 (현재 대화 참여자)]
[Time: 현재 시점]
[Confidence: 명시되지 않음]
[Source: 화자의 직접 발화]
[World: 현실 세계]

“이순신은 위대했다"라는 동일한 자연어 문장이더라도, 역사 교과서가 서술한 것인지, 개인이 감상을 말한 것인지, 소설 속 등장인물이 말한 것인지에 따라 완전히 다른 표현이 된다.

모호함이 구조적으로 제거된다. 주장이 주장으로서 기록된다. 진실의 파편이 파편으로서 보존된다.

지도는 영토가 아니다

폴란드계 미국인 학자 알프레드 코르집스키는 이렇게 말했다.

“지도는 영토가 아니다.”

우리에게 필요한 것은 지도를 그리는 언어다. 지도들을 모아서 영토를 역추적하는 엔진이 필요하다.

지도는 영토의 완벽한 복제가 아니다. 지도는 누군가가, 어떤 목적으로, 어떤 축척으로 그린 표현이다. 같은 도시의 지도가 수십 종류 있을 수 있다. 관광 지도, 지형도, 교통 지도, 인구 밀도 지도. 전부 같은 영토에 대한 서로 다른 주장이다.

어떤 지도도 영토 그 자체가 아니다. 그러나 여러 지도를 겹쳐보면, 영토에 대한 이해가 깊어진다.

이것이 주장 기반 지식 시스템이 세계를 다루는 방식이다. 수많은 주장을 구조화해서 기록하고, 그 위에서 합의와 패턴을 발견하고, 영토에 대한 점점 더 정밀한 이해를 구축한다.

그러나 결코 “이것이 영토 그 자체다"라고 주장하지 않는다.

요약

진실은 물리적으로 접근 불가능하다.

사건은 일어나는 순간 과거로 사라진다. 빛의 속도보다 빠르게.
우리에게 남는 것은 진실의 파편뿐이다. 광자, 기록, 증언.
뇌조차 사실을 저장하지 않는다. 파편으로부터 재구성된 주장을 저장한다.
따라서 지식 시스템의 1차 데이터는 사실이 될 수 없다. 주장이어야 한다.
주장을 사실로 취급하면 모순은 에러가 된다. 주장으로 다루면 모순은 데이터가 된다.
LLM의 환각은 주장의 출처가 소실된 결과다.
이런 시스템은 모든 서술에 출처, 시점, 관점, 확신도를 구조적으로 내장한다.

우리는 진실을 다루지 않는다. 우리는 진실에 대한 문장을 다룬다. 이것은 겸손이 아니라 물리학이다.