Verb Edge

Verb Edge — это тип Edge в потоке GEUL для выражения предикатов/действий. 13 767 глаголов WordNet классифицируются в 10 Primitive → 68 Sub-primitive, а кодирование Хаффмана на уровне Sub-primitive формирует 16-битную кодовую книгу.

Дочерние документы

ДокументОписание
Роли участников16 Semantic Role (4-бит кодирование)
Семантические квалификаторы14 квалификаторов: эвиденциальность, наклонение, время, вид и др.

Иерархия глаголов

10 Primitive (верхние семантические категории)
 ├── BE          ├── PERCEIVE    ├── FEEL
 ├── THINK       ├── CHANGE      ├── CAUSE
 ├── MOVE        ├── COMMUNICATE ├── TRANSFER
 └── SOCIAL
  → 68 Sub-primitive (средняя классификация)
    → 559 Root Verb (корневые глаголы)
      → 13,767 Leaf Verb (все глаголы WordNet)

Типы пакетов Verb Edge

Все три типа Tiny/Short/Full имеют одинаковое 16-битное тело глагола в последнем слове.

TinyShortFull
Слов2 (32bit)3 (48bit)5 (80bit)
Участники16 шаблонов512 шаблонов19bit флаги
Квалификаторы7 шаблонов3 640 шаблонов27bit
Тело глагола16bit16bit16bit
Ожид. доля90%7%3%

Средний размер пакета: 0.9×2 + 0.07×3 + 0.03×5 = 2.16 слов

Tiny Verb Edge (2 слова)

1st WORD:  [Prefix 5bit] [Target×шаблон 11bit]
2nd WORD:  [тело глагола 16bit]

Short Verb Edge (3 слова)

1st WORD:  [Prefix 6bit] [Type 1bit=0] [шаблон участников 9bit]
2nd WORD:  [Target×шаблон квалификаторов 16bit]
3rd WORD:  [тело глагола 16bit]

Full Verb Edge (5 слов)

1st WORD:  [Prefix 6bit] [Type 1bit=1] [Target участников 5bit] [флаги участников 4bit]
2nd+3rd:   [флаги участников 15bit] [квалификаторы 17bit]
4th WORD:  [квалификаторы 10bit] [резерв 6bit]
5th WORD:  [тело глагола 16bit]

16-битное тело глагола

┌─────────────────────────┬────────────────────────────┐
│   sub_primitive code    │     DFS index в дереве     │
│   (4-8 бит, Хаффман)    │     (8-12 бит)             │
└─────────────────────────┴────────────────────────────┘

Распределение длин кодов

Длина кодаКол-воСумма глаголовДоля
4 бита46 38846.4%
5 бит42 47918.0%
6 бит82 32116.9%
7 бит161 78613.0%
8 бит368135.9%

Расчёт бит DFS index

Кол-во глаголов в sub_primitiveНеобходимо бит
1~2568 бит
257~5129 бит
513~102410 бит
1025~204811 бит
2049~409612 бит

Пример: CHANGE-TRANSFORM = 0000(4 бита) + 3 063 глагола (12 бит) = 16 бит.

Средняя длина кода

Среднее = Σ(длина кода × кол-во глаголов) / всего глаголов ≈ 5.14 бит
МетодСр. бит
Фиксированные 7 бит (68)7.00
Кодирование Хаффмана5.14
Экономия1.86 бит (27%)

Primitive — крупные категории (10)

PrimitiveЗначениеКол-во Sub-primitiveКол-во глаголов
BEСостояние/существование8899
PERCEIVEВосприятие/познание4218
FEELЭмоции6204
THINKМышление6769
CHANGEИзменение83 358
CAUSEПричинение/действие143 739
MOVEПеремещение62 182
COMMUNICATEКоммуникация6586
TRANSFERПередача4530
SOCIALСоциальное действие6387

Наиболее частотные Sub-primitive (4-битный код)

Sub-primitiveКодГлаголовДоляПример
CHANGE-TRANSFORM00003 06322.2%«менять», «становиться»
CAUSE-USE00011 3589.9%«использовать», «применять»
MOVE-DISPLACE00101 0257.4%«перемещать»
MOVE-GO00119426.8%«идти»

Четыре верхних Sub-primitive покрывают 46.4% всех глаголов.

Философия проектирования

Почему кодирование Хаффмана

Почему убраны биты Primitive

Сохранение семантической группировки

Классификация Primitive сохраняется для удобочитаемости и как подсказка семантической кластеризации при обучении LLM.