动词边

Verb Edge 是 GEUL 流中表达谓述/动作的 Edge 类型。将13,767个 WordNet 动词按10个 Primitive → 68个 Sub-primitive 分类,通过 Sub-primitive 级别 Huffman 编码生成16位码本。

子文档

文档说明
参与者角色16种 Semantic Role(4位编码)
语义限定符证据性、语气、时态、体貌等14种限定符

动词层次结构

10 Primitive (最高语义范畴)
 ├── BE          ├── PERCEIVE    ├── FEEL
 ├── THINK       ├── CHANGE      ├── CAUSE
 ├── MOVE        ├── COMMUNICATE ├── TRANSFER
 └── SOCIAL
  → 68 Sub-primitive (中间分类)
    → 559 Root Verb (根动词)
      → 13,767 Leaf Verb (WordNet 全部动词)

Verb Edge 数据包类型

Tiny/Short/Full 三种数据包类型在最后一个字共享相同的 16位动词主体

TinyShortFull
2 (32bit)3 (48bit)5 (80bit)
参与者16模式512模式19bit 标志
限定符7模式3,640模式27bit
动词主体16bit16bit16bit
预期比例90%7%3%

平均数据包大小: 0.9×2 + 0.07×3 + 0.03×5 = 2.16字

Tiny Verb Edge(2字)

1st WORD:  [Prefix 5bit] [Target×模式 11bit]
2nd WORD:  [动词主体 16bit]

Short Verb Edge(3字)

1st WORD:  [Prefix 6bit] [Type 1bit=0] [参与者模式 9bit]
2nd WORD:  [Target×限定符模式 16bit]
3rd WORD:  [动词主体 16bit]

Full Verb Edge(5字)

1st WORD:  [Prefix 6bit] [Type 1bit=1] [Target参与者 5bit] [参与者标志 4bit]
2nd+3rd:   [参与者标志 15bit] [限定符 17bit]
4th WORD:  [限定符 10bit] [保留 6bit]
5th WORD:  [动词主体 16bit]

16位动词主体

┌─────────────────────────┬────────────────────────────┐
│   sub_primitive code    │     树内 DFS index         │
│   (4-8位, Huffman)       │     (8-12位)              │
└─────────────────────────┴────────────────────────────┘

编码长度分布

编码长度个数动词总数比例
4位4个6,38846.4%
5位4个2,47918.0%
6位8个2,32116.9%
7位16个1,78613.0%
8位36个8135.9%

DFS index 位数计算

sub_primitive 动词数所需位数
1~2568位
257~5129位
513~102410位
1025~204811位
2049~409612位

例:CHANGE-TRANSFORM = 0000(4位)+ 3,063个动词(12位)= 16位。

平均编码长度

平均 = Σ(编码长度 × 动词数) / 总动词数 ≈ 5.14位
方式平均位数
固定7位(68个)7.00
Huffman 编码5.14
节省1.86位 (27%)

Primitive 大分类(10个)

Primitive含义Sub-primitive 数动词数
BE状态/存在8899
PERCEIVE感知/认知4218
FEEL情感6204
THINK思考6769
CHANGE变化83,358
CAUSE引起/行为143,739
MOVE移动62,182
COMMUNICATE交流6586
TRANSFER转移4530
SOCIAL社会行为6387

最高频 Sub-primitive(4位编码)

Sub-primitive编码动词数比例示例
CHANGE-TRANSFORM00003,06322.2%“变化”、“变成”
CAUSE-USE00011,3589.9%“使用”、“利用”
MOVE-DISPLACE00101,0257.4%“搬动”
MOVE-GO00119426.8%“去”

前4个 Sub-primitive 占全部动词的46.4%。

设计哲学

选择 Huffman 编码的原因

移除 Primitive 位的原因

保留语义分组

Primitive 分类为人类可读性和 LLM 学习时的语义聚类提示而保留。