Verb Edge
Verb Edge — это тип Edge в потоке GEUL для выражения предикатов/действий. 13 767 глаголов WordNet классифицируются в 10 Primitive → 68 Sub-primitive, а кодирование Хаффмана на уровне Sub-primitive формирует 16-битную кодовую книгу.
Дочерние документы
Иерархия глаголов
10 Primitive (верхние семантические категории)
├── BE ├── PERCEIVE ├── FEEL
├── THINK ├── CHANGE ├── CAUSE
├── MOVE ├── COMMUNICATE ├── TRANSFER
└── SOCIAL
→ 68 Sub-primitive (средняя классификация)
→ 559 Root Verb (корневые глаголы)
→ 13,767 Leaf Verb (все глаголы WordNet)
- Primitive (крупная категория) отвечает только за концептуальную группировку, биты не выделяются
- 68 Sub-primitive (подкатегория) получают коды переменной длины на основе частоты
- Чем выше частота группы глаголов, тем короче код (4–8 бит)
Типы пакетов Verb Edge
Все три типа Tiny/Short/Full имеют одинаковое 16-битное тело глагола в последнем слове.
| Tiny | Short | Full |
|---|
| Слов | 2 (32bit) | 3 (48bit) | 5 (80bit) |
| Участники | 16 шаблонов | 512 шаблонов | 19bit флаги |
| Квалификаторы | 7 шаблонов | 3 640 шаблонов | 27bit |
| Тело глагола | 16bit | 16bit | 16bit |
| Ожид. доля | 90% | 7% | 3% |
Средний размер пакета: 0.9×2 + 0.07×3 + 0.03×5 = 2.16 слов
Tiny Verb Edge (2 слова)
1st WORD: [Prefix 5bit] [Target×шаблон 11bit]
2nd WORD: [тело глагола 16bit]
- Target×шаблон: 18 Target × 113 шаблонов = 2 034 комбинации
- Участники 16 шаблонов × квалификаторы 7 шаблонов = 112 + 1 резерв = 113
- Покрытие ~90%
Short Verb Edge (3 слова)
1st WORD: [Prefix 6bit] [Type 1bit=0] [шаблон участников 9bit]
2nd WORD: [Target×шаблон квалификаторов 16bit]
3rd WORD: [тело глагола 16bit]
Full Verb Edge (5 слов)
1st WORD: [Prefix 6bit] [Type 1bit=1] [Target участников 5bit] [флаги участников 4bit]
2nd+3rd: [флаги участников 15bit] [квалификаторы 17bit]
4th WORD: [квалификаторы 10bit] [резерв 6bit]
5th WORD: [тело глагола 16bit]
16-битное тело глагола
┌─────────────────────────┬────────────────────────────┐
│ sub_primitive code │ DFS index в дереве │
│ (4-8 бит, Хаффман) │ (8-12 бит) │
└─────────────────────────┴────────────────────────────┘
- sub_primitive code: 4~8 бит переменной длины (код Хаффмана)
- DFS index: идентификация конкретного глагола внутри sub_primitive
Распределение длин кодов
| Длина кода | Кол-во | Сумма глаголов | Доля |
|---|
| 4 бита | 4 | 6 388 | 46.4% |
| 5 бит | 4 | 2 479 | 18.0% |
| 6 бит | 8 | 2 321 | 16.9% |
| 7 бит | 16 | 1 786 | 13.0% |
| 8 бит | 36 | 813 | 5.9% |
Расчёт бит DFS index
| Кол-во глаголов в sub_primitive | Необходимо бит |
|---|
| 1~256 | 8 бит |
| 257~512 | 9 бит |
| 513~1024 | 10 бит |
| 1025~2048 | 11 бит |
| 2049~4096 | 12 бит |
Пример: CHANGE-TRANSFORM = 0000(4 бита) + 3 063 глагола (12 бит) = 16 бит.
Средняя длина кода
Среднее = Σ(длина кода × кол-во глаголов) / всего глаголов ≈ 5.14 бит
| Метод | Ср. бит |
|---|
| Фиксированные 7 бит (68) | 7.00 |
| Кодирование Хаффмана | 5.14 |
| Экономия | 1.86 бит (27%) |
Primitive — крупные категории (10)
| Primitive | Значение | Кол-во Sub-primitive | Кол-во глаголов |
|---|
| BE | Состояние/существование | 8 | 899 |
| PERCEIVE | Восприятие/познание | 4 | 218 |
| FEEL | Эмоции | 6 | 204 |
| THINK | Мышление | 6 | 769 |
| CHANGE | Изменение | 8 | 3 358 |
| CAUSE | Причинение/действие | 14 | 3 739 |
| MOVE | Перемещение | 6 | 2 182 |
| COMMUNICATE | Коммуникация | 6 | 586 |
| TRANSFER | Передача | 4 | 530 |
| SOCIAL | Социальное действие | 6 | 387 |
Наиболее частотные Sub-primitive (4-битный код)
| Sub-primitive | Код | Глаголов | Доля | Пример |
|---|
| CHANGE-TRANSFORM | 0000 | 3 063 | 22.2% | «менять», «становиться» |
| CAUSE-USE | 0001 | 1 358 | 9.9% | «использовать», «применять» |
| MOVE-DISPLACE | 0010 | 1 025 | 7.4% | «перемещать» |
| MOVE-GO | 0011 | 942 | 6.8% | «идти» |
Четыре верхних Sub-primitive покрывают 46.4% всех глаголов.
Философия проектирования
Почему кодирование Хаффмана
- CHANGE-TRANSFORM (22.2%) — подавляющее большинство
- Экономия 27% средних бит по сравнению с фиксированным распределением
- Четыре верхних sub_primitive — 46.4% от общего числа
Почему убраны биты Primitive
- Было: Primitive 3 бита + Sub_primitive 4 бита = 7 бит фикс.
- Стало: прямое кодирование Sub_primitive = 4~8 бит переменное
- Для высокочастотных глаголов — экономия до 4 бит
Сохранение семантической группировки
Классификация Primitive сохраняется для удобочитаемости и как подсказка семантической кластеризации при обучении LLM.