動詞エッジ

Verb Edge は GEUL ストリームで述語/動作を表現する Edge タイプである。13,767個の WordNet 動詞を10個の Primitive → 68個の Sub-primitive に分類し、Sub-primitive 単位のハフマン符号化で16ビットコードブックを生成する。

下位文書

文書説明
参加者役割16種の Semantic Role(4ビットエンコード)
意味限定子証拠性・叙法・時制・アスペクト等14種の限定子

動詞階層構造

10 Primitive (最上位意味範疇)
 ├── BE          ├── PERCEIVE    ├── FEEL
 ├── THINK       ├── CHANGE      ├── CAUSE
 ├── MOVE        ├── COMMUNICATE ├── TRANSFER
 └── SOCIAL
  → 68 Sub-primitive (中間分類)
    → 559 Root Verb (ルート動詞)
      → 13,767 Leaf Verb (WordNet 全動詞)

Verb Edge パケットタイプ

Tiny/Short/Full の3種パケットタイプすべてが最後のワードに同一の 16ビット動詞本文を共有する。

TinyShortFull
ワード2 (32bit)3 (48bit)5 (80bit)
参加者16パターン512パターン19bit フラグ
限定子7パターン3,640パターン27bit
動詞本文16bit16bit16bit
予想割合90%7%3%

平均パケットサイズ: 0.9×2 + 0.07×3 + 0.03×5 = 2.16ワード

Tiny Verb Edge(2ワード)

1st WORD:  [Prefix 5bit] [Target×パターン 11bit]
2nd WORD:  [動詞本文 16bit]

Short Verb Edge(3ワード)

1st WORD:  [Prefix 6bit] [Type 1bit=0] [参加者パターン 9bit]
2nd WORD:  [Target×限定子パターン 16bit]
3rd WORD:  [動詞本文 16bit]

Full Verb Edge(5ワード)

1st WORD:  [Prefix 6bit] [Type 1bit=1] [Target参加者 5bit] [参加者フラグ 4bit]
2nd+3rd:   [参加者フラグ 15bit] [限定子 17bit]
4th WORD:  [限定子 10bit] [予約 6bit]
5th WORD:  [動詞本文 16bit]

16ビット動詞本文

┌─────────────────────────┬────────────────────────────┐
│   sub_primitive code    │     ツリー内 DFS index      │
│   (4-8ビット, ハフマン)   │     (8-12ビット)           │
└─────────────────────────┴────────────────────────────┘

コード長分布

コード長個数動詞数合計割合
4ビット4個6,38846.4%
5ビット4個2,47918.0%
6ビット8個2,32116.9%
7ビット16個1,78613.0%
8ビット36個8135.9%

DFS index ビット計算

sub_primitive 動詞数必要ビット
1~2568ビット
257~5129ビット
513~102410ビット
1025~204811ビット
2049~409612ビット

例:CHANGE-TRANSFORM = 0000(4ビット)+ 3,063個の動詞(12ビット)= 16ビット。

平均コード長

平均 = Σ(コード長 × 動詞数) / 総動詞数 ≈ 5.14ビット
方式平均ビット
固定7ビット(68個)7.00
ハフマン符号化5.14
削減1.86ビット (27%)

Primitive 大分類(10個)

Primitive意味Sub-primitive 数動詞数
BE状態/存在8899
PERCEIVE知覚/認知4218
FEEL感情6204
THINK思考6769
CHANGE変化83,358
CAUSE惹起/行為143,739
MOVE移動62,182
COMMUNICATE伝達6586
TRANSFER移転4530
SOCIAL社会的行為6387

最高頻度 Sub-primitive(4ビットコード)

Sub-primitiveコード動詞数割合
CHANGE-TRANSFORM00003,06322.2%「変わる」「なる」
CAUSE-USE00011,3589.9%「使う」「用いる」
MOVE-DISPLACE00101,0257.4%「移す」
MOVE-GO00119426.8%「行く」

上位4個の Sub-primitive が全体の46.4%を占める。

設計哲学

ハフマン符号化を選択した理由

Primitive ビット除去の理由

意味的グルーピングの維持

Primitive 分類は人間の可読性と LLM 学習時の意味クラスタリングヒントのために維持する。