動詞エッジ
Verb Edge は GEUL ストリームで述語/動作を表現する Edge タイプである。13,767個の WordNet 動詞を10個の Primitive → 68個の Sub-primitive に分類し、Sub-primitive 単位のハフマン符号化で16ビットコードブックを生成する。
下位文書
| 文書 | 説明 |
|---|
| 参加者役割 | 16種の Semantic Role(4ビットエンコード) |
| 意味限定子 | 証拠性・叙法・時制・アスペクト等14種の限定子 |
動詞階層構造
10 Primitive (最上位意味範疇)
├── BE ├── PERCEIVE ├── FEEL
├── THINK ├── CHANGE ├── CAUSE
├── MOVE ├── COMMUNICATE ├── TRANSFER
└── SOCIAL
→ 68 Sub-primitive (中間分類)
→ 559 Root Verb (ルート動詞)
→ 13,767 Leaf Verb (WordNet 全動詞)
- Primitive(大分類)は概念的グルーピングのみ担当し、ビット割り当てなし
- Sub-primitive(小分類)68個に頻度ベースの可変長コードを割り当て
- 高頻度動詞群ほど短いコード(4ビット ~ 8ビット)
Verb Edge パケットタイプ
Tiny/Short/Full の3種パケットタイプすべてが最後のワードに同一の 16ビット動詞本文を共有する。
| Tiny | Short | Full |
|---|
| ワード | 2 (32bit) | 3 (48bit) | 5 (80bit) |
| 参加者 | 16パターン | 512パターン | 19bit フラグ |
| 限定子 | 7パターン | 3,640パターン | 27bit |
| 動詞本文 | 16bit | 16bit | 16bit |
| 予想割合 | 90% | 7% | 3% |
平均パケットサイズ: 0.9×2 + 0.07×3 + 0.03×5 = 2.16ワード
Tiny Verb Edge(2ワード)
1st WORD: [Prefix 5bit] [Target×パターン 11bit]
2nd WORD: [動詞本文 16bit]
- Target×パターン:18 Target × 113 パターン = 2,034 組み合わせ
- 参加者16パターン × 限定子7パターン = 112 + 予約1 = 113
- カバー率 ~90%
Short Verb Edge(3ワード)
1st WORD: [Prefix 6bit] [Type 1bit=0] [参加者パターン 9bit]
2nd WORD: [Target×限定子パターン 16bit]
3rd WORD: [動詞本文 16bit]
Full Verb Edge(5ワード)
1st WORD: [Prefix 6bit] [Type 1bit=1] [Target参加者 5bit] [参加者フラグ 4bit]
2nd+3rd: [参加者フラグ 15bit] [限定子 17bit]
4th WORD: [限定子 10bit] [予約 6bit]
5th WORD: [動詞本文 16bit]
16ビット動詞本文
┌─────────────────────────┬────────────────────────────┐
│ sub_primitive code │ ツリー内 DFS index │
│ (4-8ビット, ハフマン) │ (8-12ビット) │
└─────────────────────────┴────────────────────────────┘
- sub_primitive code: 4~8ビット可変(ハフマンコード)
- DFS index: 当該 sub_primitive 内の個別動詞識別
コード長分布
| コード長 | 個数 | 動詞数合計 | 割合 |
|---|
| 4ビット | 4個 | 6,388 | 46.4% |
| 5ビット | 4個 | 2,479 | 18.0% |
| 6ビット | 8個 | 2,321 | 16.9% |
| 7ビット | 16個 | 1,786 | 13.0% |
| 8ビット | 36個 | 813 | 5.9% |
DFS index ビット計算
| sub_primitive 動詞数 | 必要ビット |
|---|
| 1~256 | 8ビット |
| 257~512 | 9ビット |
| 513~1024 | 10ビット |
| 1025~2048 | 11ビット |
| 2049~4096 | 12ビット |
例:CHANGE-TRANSFORM = 0000(4ビット)+ 3,063個の動詞(12ビット)= 16ビット。
平均コード長
平均 = Σ(コード長 × 動詞数) / 総動詞数 ≈ 5.14ビット
| 方式 | 平均ビット |
|---|
| 固定7ビット(68個) | 7.00 |
| ハフマン符号化 | 5.14 |
| 削減 | 1.86ビット (27%) |
Primitive 大分類(10個)
| Primitive | 意味 | Sub-primitive 数 | 動詞数 |
|---|
| BE | 状態/存在 | 8 | 899 |
| PERCEIVE | 知覚/認知 | 4 | 218 |
| FEEL | 感情 | 6 | 204 |
| THINK | 思考 | 6 | 769 |
| CHANGE | 変化 | 8 | 3,358 |
| CAUSE | 惹起/行為 | 14 | 3,739 |
| MOVE | 移動 | 6 | 2,182 |
| COMMUNICATE | 伝達 | 6 | 586 |
| TRANSFER | 移転 | 4 | 530 |
| SOCIAL | 社会的行為 | 6 | 387 |
最高頻度 Sub-primitive(4ビットコード)
| Sub-primitive | コード | 動詞数 | 割合 | 例 |
|---|
| CHANGE-TRANSFORM | 0000 | 3,063 | 22.2% | 「変わる」「なる」 |
| CAUSE-USE | 0001 | 1,358 | 9.9% | 「使う」「用いる」 |
| MOVE-DISPLACE | 0010 | 1,025 | 7.4% | 「移す」 |
| MOVE-GO | 0011 | 942 | 6.8% | 「行く」 |
上位4個の Sub-primitive が全体の46.4%を占める。
設計哲学
ハフマン符号化を選択した理由
- CHANGE-TRANSFORM(22.2%)が圧倒的高頻度
- 固定ビット割り当て対比平均ビット数27%削減
- 上位4個の sub_primitive が全体の46.4%
Primitive ビット除去の理由
- 既存:Primitive 3ビット + Sub_primitive 4ビット = 7ビット固定
- 変更:Sub_primitive 直接符号化 = 4~8ビット可変
- 高頻度動詞で最大4ビット削減
意味的グルーピングの維持
Primitive 分類は人間の可読性と LLM 学習時の意味クラスタリングヒントのために維持する。