동사 엣지

Verb Edge는 GEUL 스트림에서 서술/동작을 표현하는 Edge 타입이다. 13,767개 WordNet 동사를 10개 Primitive → 68개 Sub-primitive로 분류하고, Sub-primitive 단위 허프만 코딩으로 16비트 코드북을 생성한다.

하위 문서

문서설명
참여자 역할16개 Semantic Role (4비트 인코딩)
의미 한정자증거성·서법·시제·상 등 14개 한정자

동사 계층 구조

10 Primitive (최상위 의미 범주)
 ├── BE          ├── PERCEIVE    ├── FEEL
 ├── THINK       ├── CHANGE      ├── CAUSE
 ├── MOVE        ├── COMMUNICATE ├── TRANSFER
 └── SOCIAL
  → 68 Sub-primitive (중간 분류)
    → 559 Root Verb (루트 동사)
      → 13,767 Leaf Verb (WordNet 전체 동사)

Verb Edge 패킷 타입

Tiny/Short/Full 3가지 패킷 타입 모두 마지막 워드에 동일한 16비트 동사 본문을 공유한다.

TinyShortFull
워드2 (32bit)3 (48bit)5 (80bit)
참여자16패턴512패턴19bit 플래그
한정자7패턴3,640패턴27bit
동사 본문16bit16bit16bit
예상 비율90%7%3%

평균 패킷 크기: 0.9×2 + 0.07×3 + 0.03×5 = 2.16워드

Tiny Verb Edge (2워드)

1st WORD:  [Prefix 5bit] [Target×패턴 11bit]
2nd WORD:  [동사 본문 16bit]

Short Verb Edge (3워드)

1st WORD:  [Prefix 6bit] [Type 1bit=0] [참여자패턴 9bit]
2nd WORD:  [Target×한정자패턴 16bit]
3rd WORD:  [동사 본문 16bit]

Full Verb Edge (5워드)

1st WORD:  [Prefix 6bit] [Type 1bit=1] [Target참여자 5bit] [참여자플래그 4bit]
2nd+3rd:   [참여자플래그 15bit] [한정자 17bit]
4th WORD:  [한정자 10bit] [예약 6bit]
5th WORD:  [동사 본문 16bit]

16비트 동사 본문

┌─────────────────────────┬────────────────────────────┐
│   sub_primitive code    │     트리 내 DFS index      │
│   (4-8비트, 허프만)      │     (8-12비트)             │
└─────────────────────────┴────────────────────────────┘

코드 길이 분포

코드 길이개수동사 수 합계비율
4비트4개6,38846.4%
5비트4개2,47918.0%
6비트8개2,32116.9%
7비트16개1,78613.0%
8비트36개8135.9%

DFS index 비트 계산

sub_primitive 동사 수필요 비트
1~2568비트
257~5129비트
513~102410비트
1025~204811비트
2049~409612비트

예: CHANGE-TRANSFORM = 0000(4비트) + 3,063개 동사(12비트) = 16비트.

평균 코드 길이

평균 = Σ(코드길이 × 동사수) / 총동사수 ≈ 5.14비트
방식평균 비트
고정 7비트 (68개)7.00
허프만 코딩5.14
절감1.86비트 (27%)

Primitive 대분류 (10개)

Primitive의미Sub-primitive 수동사 수
BE상태/존재8899
PERCEIVE지각/인지4218
FEEL감정6204
THINK사고6769
CHANGE변화83,358
CAUSE야기/행위143,739
MOVE이동62,182
COMMUNICATE소통6586
TRANSFER이전4530
SOCIAL사회적 행위6387

최고빈도 Sub-primitive (4비트 코드)

Sub-primitive코드동사 수비율예시
CHANGE-TRANSFORM00003,06322.2%“변하다”, “되다”
CAUSE-USE00011,3589.9%“쓰다”, “사용하다”
MOVE-DISPLACE00101,0257.4%“옮기다”
MOVE-GO00119426.8%“가다”

상위 4개 Sub-primitive가 전체의 46.4%를 차지한다.

설계 철학

허프만 코딩 선택 이유

Primitive 비트 제거 이유

의미적 그룹핑 유지

Primitive 분류는 인간 가독성과 LLM 학습 시 의미 클러스터링 힌트를 위해 유지한다.