Clause Edge 是表达谓述(动词边)、事件(事件6边)、关系(三元组边)或其他 Clause 之间逻辑/篇章关系的 Edge 类型。

基于 RST(Rhetorical Structure Theory)的篇章关系设计。

数据包结构(4字,64位)

1st WORD (16位):
┌─────────────────────┬────────────┬────────┐
│      Prefix         │  关系类型   │  保留   │
│       10位          │   4位      │  2位   │
└─────────────────────┴────────────┴────────┘
 [1100 000 010]        [RRRR]       [xx]

2nd WORD: Edge TID (16位)
3rd WORD: TID 1 (16位) - 第一个子句
4th WORD: TID 2 (16位) - 第二个子句
字段说明
Prefix101100 000 010
关系类型416种 RST 关系
保留2未来扩展用
Edge TID16此 Edge 的唯一标识符
TID 116第一个子句引用
TID 216第二个子句引用

关系类型(4位 = 16种)

因果关系

代码类型说明示例
0000CAUSE原因→结果“因为下雨所以待在家里”
0001RESULT结果←原因“待在家里,因为下雨了”
0010CONDITION条件→结论“如果下雨就不去”
0011PURPOSE目的“为了活着而吃饭”

时间/顺序关系

代码类型说明示例
0100SEQUENCE时间顺序“吃完饭就睡了”
0101PARALLEL同时/并行“一边笑一边说”

对比/让步关系

代码类型说明示例
0110CONTRAST对比“A大而B小”
0111CONCESSION让步“虽然难但做了”

补充/背景关系

代码类型说明示例
1000ELABORATION详述“具体来说”
1001BACKGROUND背景信息“顺便说一下,当时的情况是”

论证关系

代码类型说明示例
1010EVIDENCE提供证据“因为……所以”
1011EVALUATION评价“这很好/不好”

其他关系

代码类型说明示例
1100SOLUTIONHOOD问题→解决“问题是X,解决方案是Y”
1101ALTERNATIVE选择/替代“去或不去”
1110MEANS手段“通过这样做达成了”
1111RESERVED保留未来扩展用

TID 顺序规则

方向由 TID 顺序决定。

关系TID 1TID 2
CAUSE原因结果
RESULT结果原因
CONDITION条件结论
PURPOSE行为目的
SEQUENCE先行后行
EVIDENCE证据主张
ELABORATION核心补充

Multinuclear vs Nucleus-Satellite

遵循 RST 区分。

Nucleus-Satellite(非对称)

关系TID 1TID 2
CAUSE原因 (Satellite)结果 (Nucleus)
CONDITION条件 (Satellite)结论 (Nucleus)
EVIDENCE证据 (Satellite)主张 (Nucleus)
ELABORATION核心 (Nucleus)补充 (Satellite)

Multinuclear(对称)

关系TID 1TID 2
SEQUENCE先行后行
PARALLEL第一个第二个
CONTRAST第一个第二个
ALTERNATIVE第一个第二个

对称关系中 TID 顺序不表示语义优先级。

示例

简单因果:“因为下雨所以待在家里”

Verb Edge E01: rain(雨) | TID=0x0001
Verb Edge E02: stay(我, 家) | TID=0x0002

Clause Edge:
  1st: [1100 000 010] [0000] [00]  - Prefix + CAUSE + 保留
  2nd: [0x0100]                    - Edge TID
  3rd: [0x0001]                    - TID 1 (原因: E01)
  4th: [0x0002]                    - TID 2 (结果: E02)

嵌套 Clause:“因为下雨待在了家里,所以就学习了”

Verb Edge E01: rain(雨) | TID=0x0001
Verb Edge E02: stay(我, 家) | TID=0x0002
Verb Edge E03: study(我) | TID=0x0003

Clause Edge C01:
  1st: [1100 000 010] [0000] [00]  - Prefix + CAUSE
  2nd: [0x0100]                    - Edge TID
  3rd: [0x0001]                    - E01
  4th: [0x0002]                    - E02

Clause Edge C02:
  1st: [1100 000 010] [0001] [00]  - Prefix + RESULT
  2nd: [0x0101]                    - Edge TID
  3rd: [0x0100]                    - C01 (引用 Clause TID!)
  4th: [0x0003]                    - E03

设计依据

基于 RST 的原因

  • 30年以上的研究积累
  • 多种语料库验证
  • 存在篇章分析工具
  • 语言无关性

4位(16种)的原因

  • 覆盖 RST 核心关系12种以上
  • 保留扩展余量
  • 3位(8种)不够

4字简化的原因

  • 方向:由 TID 顺序决定(无需额外位)
  • 确信度:作为单独的元数据处理
  • 2位保留:供未来扩展