为什么是主张而非事实?

真相消逝得比光速还快

此刻已经是过去

此刻，当你阅读这句话时，这句话被写下的瞬间已经是过去了。

到达你眼睛的光从屏幕出发，花了几纳秒才到达你的视网膜。视网膜的信号花了几十毫秒通过视神经传到大脑。你的大脑花了几百毫秒将该信号解读为一个"句子"。

当你感觉自己"读完"这句话的时候，这句话存在于屏幕上的那个瞬间已经是数亿纳秒之前的过去了。

这不是比喻。这是物理学。

真相不可触及

在物理世界中，“事件"是时空中的一个点。

事件发生的瞬间，它发射信息。光子、声波、引力波、化学痕迹。这些信息以光速或低于光速传播。

但事件本身呢？在它发生的确切时间和地点的完整状态？

它消逝进过去，比光速还快。

事件发生后0.001秒，它已经在过去了。没有观察者能触及事件"本身”。到达我们的始终是事件留下的痕迹。

反射的光子。记录的文本。转述的传闻。测量的数据。

全是碎片。真相的碎片。不是真相本身。

大脑不存储事实

神经科学揭示了一个令人不安的真相。

人类的记忆不是录制。是重构。

当你回忆"昨天我看到一辆红色汽车"时，你的大脑中并没有存储一张"红色汽车"的照片。

实际发生的是这样：

光子到达视网膜。
视网膜上的视锥细胞将特定波长转换为信号。
视觉皮层将这些信号组装成模式。
海马体将这些模式连同上下文一起编码。
睡眠期间，这些编码被重新组织和压缩。

“我看到一辆红色汽车"这个记忆是在检索的瞬间从散布在多个脑区的碎片中重新组装的产物。

这就是为什么记忆会改变。每次回忆同一事件，它都会被略有不同地重构。新的经历污染旧的记忆。你甚至可以记住从未发生过的事情。

大脑存储的不是"事实”。大脑存储的是 “感觉如此、看起来如此、我如此理解”—— 主张。

所有知识都是主张

将这个原则从个人记忆延伸到文明知识，同样的结构重复出现。

历史： “李舜臣于1598年在露梁海战中阵亡。”

这是事实吗？

我们拥有的：有《朝鲜王朝实录》的记载。有《李忠武公全书》的记载。有日本方面的记录。有数百年的学术解读。

所有这些都是主张。不同来源、不同时间、不同视角的叙述。

“李舜臣于1598年阵亡"不是事实—— 而是这些主张的共识。一个置信度非常高的共识，但仍然是共识。

科学： “光速是299,792,458 m/s。”

这是事实吗？

我们拥有的：无数实验测量了这个值。当前物理理论预测了这个值。国际度量衡局将这个值作为定义采用。

所有这些都是主张。经过测量仪器的限制、理论的假设和共识程序的主张。明天更精确的测量修改这个值的概率极低，但原则上不为零。

新闻： “今天股市下跌3%。”

这是事实吗？

这是交易所系统记录的数字。前提是系统运行正常。取决于哪个参考点定义了"3%"。

看起来像事实，但严格来说，这是在特定条件下由特定系统记录的主张。

真相的层级

一个合格的知识系统必须在其设计中反映这种认识论现实。

如果真相不可触及，那么我们能处理的只是关于真相的主张。

在主张的集合之上，我们可以计算共识和置信度。

这可以结构化为四个层次。

L3——叙述/观察： “这位记者，在这个时间，从这个视角，报道了这件事。” 最原始的数据。主观且个人的。知识系统直接处理的原始数据。

L2——共识/既定观点： “综合多个叙述，这是最合理的说法。” 汇聚多个L3主张的结果。概率性的，暂时的。

L1——规则/法则： “在这个世界中，这条规则运行。” 物理定律、游戏规则、社会规范。如果被打破，系统进入矛盾状态。

L0——数学/逻辑： 1+1=2。逻辑运算的规则。只有这一层不是主张。这是引擎的运行规则。不是数据。

关键是：

起点始终是L3——主张。其余层是在主张之上计算得到的衍生物。

为什么现有系统存储事实?

看看Wikidata。

Q8492 (李舜臣)
  - instance of: human
  - occupation: naval commander
  - date of death: 1598-12-16

没有"谁提出了这个主张”。没有"置信度如何"。没有"是否存在冲突的主张"。

李舜臣的死亡日期是1598年12月16日这个断言是多份历史记录和学者之间共识的结果，然而Wikidata将其存储为普遍真理。

在大多数情况下，这不是问题。因为共识的置信度足够高。

但考虑这些情况：

两家新闻机构对同一事件发布了相互矛盾的报道。一位历史学家提出了与既定观点矛盾的新解读。一篇科学论文未能重现现有实验结果。

在存储"事实"的系统中，这是错误。其中一个是错的。必须纠正。

在存储"主张"的系统中，这是正常的。不同来源，从不同视角，做出了不同的主张。两个主张都被记录。共识和置信度在此基础上计算。

现实并不干净。矛盾是现实的一部分。将矛盾视为错误的系统无法容纳现实。

幻觉的物理起源

让我们从这个视角重新审视LLM的幻觉问题。

LLM在数十亿句子上训练。每句话都是某人在某种情境下写的主张。

但LLM学习这些不是作为"主张" 而是作为"关于世界的事实"。

来源消失了。上下文消失了。置信度消失了。视角消失了。

剩下的只有统计模式。

所以LLM无法区分 “李舜臣于1598年阵亡"和 “李舜臣喜欢四字成语”。两个句子都可能以高概率出现在训练数据中，而没有来源信息，就无法知道一个是确立的历史叙述而另一个是不存在的主张。

这就是幻觉的物理起源。

当真相的碎片失去来源并混在一起时，不存在的"事实"就被编造出来了。

解决方案很明确。将碎片视为碎片。将主张记录为主张。在结构上保存来源、上下文和置信度。

结构性解决方案

一个合格的知识系统必须将每个叙述视为主张。

当自然语言句子被转换为结构化表示时，必须包含：

谁提出的主张——来源实体 何时提出的——时间上下文 在哪个世界中提出的——世界上下文 从什么视角——观点(POV) 置信度如何——置信度级别

这不是可选的。这种系统的结构要求这些信息。如果字段为空，它被显式标记为空。

当"李舜臣很伟大"被转换为结构化表示时：

[实体: 李舜臣]
[动词: 是伟大的 (评价性动词)]
[POV: 说话者 (当前对话参与者)]
[时间: 当前时刻]
[置信度: 未指定]
[来源: 说话者的直接话语]
[世界: 现实世界]

即使是相同的自然语言句子"李舜臣很伟大”，其表示完全不同，取决于是历史教科书叙述的，是个人感想的表达，还是小说中角色说的。

歧义在结构上被消除。主张被记录为主张。真相的碎片被保存为碎片。

地图不是领土

波兰裔美国学者阿尔弗雷德·科日布斯基说过：

“地图不是领土。”

我们需要的是绘制地图的语言。一个收集地图并逆向工程领土的引擎。

地图不是领土的完美复制品。地图是某人为某个目的以某个比例尺绘制的表示。同一座城市可以有数十张地图。旅游地图、地形图、交通图、人口密度图。所有这些都是关于同一片领土的不同主张。

没有任何地图是领土本身。但通过叠加多张地图，我们对领土的理解加深了。

这就是基于主张的知识系统处理世界的方式。它以结构化形式记录无数的主张，在此基础上发现共识和模式，并构建对领土越来越精确的理解。

但它永远不会断言：“这就是领土本身。”

总结

真相在物理上不可触及。

事件在发生的瞬间就消逝进过去。比光速还快。
留下的只是真相的碎片。光子、记录、证词。
大脑也不存储事实。它存储从碎片重构的主张。
因此，知识系统的原始数据不能是事实。它必须是主张。
如果将主张视为事实，矛盾就变成错误。如果将其视为主张，矛盾就变成数据。
LLM幻觉是主张失去来源的结果。
这样的系统在结构上将来源、时间、视角和置信度嵌入每个叙述中。

我们不处理真相。我们处理关于真相的句子。这不是谦逊。这是物理学。