GEUL 语法规范

基于64位SIDX的语义对齐二进制流格式的数据包类型与编码规则

动词边

将13,767个WordNet动词按10个Primitive → 68个Sub-primitive分类,通过Huffman编码生成16位码本。Tiny(2字)/Short(3字)/Full(5字)三种数据包实现平均2.16字的压缩。

实体节点

用于识别人物、地点、事物、组织等实体的固定长度4字(64位)Node。3位Mode表达量化/数,6位EntityType分类64种上位类型,48位Attributes编码各类型的语义属性。

三元组边

以(Subject, Property, Object)形式表达关系与属性的Edge类型。基本模式4字与扩展模式5字的双重结构,对Top 63高频属性进行优化。

子句边

表达谓述、事件、关系之间逻辑和篇章关系的4字固定Edge。基于RST的16种关系类型编码因果、时间、对比、论证关系。

事件6边

一次性表达六何原则(Who, What, Whom, When, Where, Why)的可变长度事件Edge。通过Presence位掩码实现3~8字的可变结构。

上下文边

表达'在哪个世界观/语境下此断言为真'的3字轻量Edge。通过来源、世界观、虚构、视角等64种类型编码真理的条件。

数量节点

表达物理量、数值、货币、字面量等的可变长度4~7字Node。6位Unit编码SI基本/导出单位、货币、特殊字面量,4位Scale表达SI前缀。

AST 边

将编程语言的AST表示为GEUL图的Edge类型。6位编码64种语言,8位编码256种AST节点类型。包含PathGEUL查询语言。

分组边

将多个Node以AND、OR、LIST、SET等7种类型组合的可变长度Edge。采用13位Prefix和终止标记(0x0000)方式支持无限数量成员。

流格式

GEUL流是以Meta Node开始和结束的数据包序列。定义TID作用域、前向引用、数据包顺序规则。