为什么MD/JSON/XML不行

结构化格式已经存在。那为什么还需要新语言？

最常见的反对意见

当有人第一次听到AI推理语言的概念时，他们说的第一句话是：

“结构化格式不是已经存在了吗？”

他们是对的。存在。很多。

有Markdown。有JSON。有XML。 YAML、TOML、Protocol Buffers、MessagePack、CSV……

世界充满了数据格式。那为什么AI仍然在用自然语言思考？

要回答这个问题，我们必须准确指出每种格式擅长什么以及它不能做什么。

Markdown：AI代理当前的记忆

截至2026年，AI代理最广泛使用的格式是Markdown。

Claude Code用 .md 文件记忆。基于GPT的代理也用Markdown做笔记。 CLAUDE.md、memory.md、notes.md。 AI的长期记忆此刻就建立在Markdown之上。

为什么是Markdown？原因很简单。 LLM善于读写Markdown。 Markdown在训练数据中大量存在，且其结构足够简单，易于生成和解析。

但Markdown是为人类阅读而设计的文档格式。

# 项目状态
## 缓存策略
- 采用SIMD位掩码 (1/28决定)
- GPU加速审查中
## 未解决
- 查询生成方法待定

机器如何解读这个？

有一个名为"缓存策略"的章节标题。其下有一个条目"采用SIMD位掩码"。括号中有一个日期"(1/28)"。

机器无法在结构上理解这些。它能从 ## 判断"缓存策略"是一个章节标题，但"它是架构的子主题"这种语义关系在Markdown中不存在。人类知道"1/28"是日期，但机器必须猜测。 1月28日，还是二十八分之一？

最终，要"理解"Markdown，LLM必须执行自然语言解释。 Markdown是叠加了缩进的自然语言—— 它不是结构化数据。

JSON：有结构但没有意义

JSON比Markdown更进一步。

{
  "entity": "李舜臣",
  "birth": "1545",
  "death": "1598",
  "occupation": "naval_commander"
}

有结构。键值对是显式的。机器可以解析。字段可以访问。

但有个问题。

JSON不知道键"entity"是什么意思。

创建这个JSON的人知道"entity"表示"一个对象"。在另一个人的JSON中，同一概念可能是"name"、“subject"或"item”。

{"name": "李舜臣"}
{"subject": "李舜臣"}
{"item": "李舜臣"}
{"entity": "李舜臣"}

四个JSON表达同一件事，但机器无法知道它们是一样的。

JSON缺乏共享语义。 有结构，但对结构意味着什么没有共识。

每个项目创建自己的schema。每个API使用自己的字段名。连接schema A和schema B又需要一个转换层。

这是巴别塔。结构存在，但没人理解彼此的结构。

XML：冗长的代价

XML试图解决JSON的问题。

命名空间、schema定义（XSD）、文档类型定义（DTD）。它提供了定义结构含义的元结构。

<entity xmlns="http://example.org/schema">
  <name>李舜臣</name>
  <birth>
    <year>1545</year>
    <calendar>lunar</calendar>
  </birth>
  <death>
    <year>1598</year>
    <cause>killed_in_action</cause>
  </death>
</entity>

可以定义意义。可以用schema强制结构。比JSON更严格。

但XML有一个致命问题。

它冗长。

在上面的XML中，实际信息是"李舜臣、1545、1598、killed_in_action"。其余全是标签。开闭标签的数量超过了信息量。

为什么这对AI是问题？

LLM的上下文窗口是有限的。如果传达相同信息需要3倍的token，窗口中能容纳的信息量就缩减到三分之一。

XML之所以冗长是为了让人类容易阅读。 AI推理语言不能有这种浪费。对LLM来说，<name> 标签就是浪费。

而且XML是2000年代初的设计。它创建于LLM不存在的时代，为人类和传统软件而设计。它从未被设计为AI推理语言。

共同的局限

Markdown、JSON、XML。三种格式各有优势，但共享共同的局限。

它们是基于文本的。 所有这些都序列化为字符串。机器必须解析它们才能处理。解析是一种成本。

理想的推理语言是二进制流。 16位字的序列。无需解析。读取的瞬间就可以解释。

它们是在LLM时代之前设计的。 Markdown是2004年的。JSON是2001年的。XML是1998年的。它们设计于LLM概念不存在的时代，为人类或传统软件而设计。

AI推理语言必须在LLM时代为LLM设计。设计原则"1字 = 1 token" 预设了LLM的存在。

它们的统一语义系统缺失或不完整。 Markdown完全没有语义系统。 JSON有结构但没有意义。 XML可以定义schema但它们不统一。

语义对齐索引是全球统一的意义ID。无论在哪里使用，同一个SIDX意味着同一件事。无需转换。共识内置。

总结

格式	结构	意义	LLM友好	二进制	主张支持	动词修饰
Markdown	弱	无	高	否	无	无
JSON	有	无	中	否	无	无
XML	有	部分	低	否	无	无
理想推理语言	有	有	高	是	有	有

需要新格式不是因为现有格式不好。而是因为现有格式是在不同的时代为不同的目的而制作的。

Markdown为人类阅读的文档而制作。 JSON为Web API的数据交换而制作。 XML为文档和数据的通用序列化而制作。

一种记录和积累AI推理的格式。那还不存在。

当目的不同时，工具也必须不同。