Естественный язык неизбежно удлиняется для устранения неоднозначности. В ясной структуре эта стоимость исчезает.
Стоимость неоднозначности
“He went to the bank.”
7 токенов. Коротко. Выглядит эффективно.
Но это предложение непригодно. Его нельзя поместить в контекст рассуждений ИИ. Потому что оно неоднозначно.
Кто такой “he”? “Bank” – это финансовое учреждение или берег реки? Когда он туда пошёл? Зачем он пошёл?
Рассуждение на основе этого предложения порождает четыре ветви неопределённости. Неопределённость распространяется на каждый последующий шаг рассуждения. Когда распространённая неопределённость выдаётся как уверенность – это галлюцинация.
Поэтому естественный язык пытается разрешить неоднозначность. Единственный способ разрешить её – использовать больше слов.
Стоимость разрешения
Посмотрим на недвусмысленную версию предложения.
“Ким Чхольсу, начальник отдела финансовой группы Samsung Electronics, посетил отделение банка Shinhan в районе Каннам в понедельник, 15 января 2024 года, чтобы открыть корпоративный счёт.”
Теперь неоднозначности нет. Субъект указан. Место указано. Временная метка указана. Цель указана.
Но 7 токенов превратились в 40.
Дополнительные 33 токена – это целиком стоимость устранения неоднозначности. Это не новая информация. Уточнение “he” как “Ким Чхольсу, начальник отдела финансовой группы Samsung Electronics” не добавило смысла – оно устранило неоднозначность.
В естественном языке ясность не бесплатна. Чтобы стать ясным, нужно стать длинным. Это структурное свойство естественного языка.
Почему естественный язык неизбежно удлиняется
Естественный язык эволюционировал для коммуникации между людьми. В человеческой коммуникации неоднозначность – это функция.
“Он пошёл в банк, говорят.”
Если говорящий и слушающий разделяют один контекст, они уже знают, кто “он” и какой “банк”. 7 токенов достаточно. Неоднозначность – это механизм сжатия. Она опускает, опираясь на общий контекст.
Проблема возникает на стороне декомпрессии.
Чтобы передать сообщение тому, кто не разделяет контекст, всё опущенное должно быть восстановлено. Восстановление делает текст длиннее.
В естественном языке ясность и краткость – это компромисс. Ясно означает длинно. Коротко означает двусмысленно. Нельзя иметь и то, и другое одновременно.
Это фундаментальное ограничение естественного языка.
У ИИ нет общего контекста
В разговоре между людьми неоднозначность эффективна. Десятилетия общего опыта, культурный фон и ход беседы автоматически разрешают неоднозначность.
У ИИ этого нет.
Текст внутри контекстного окна ИИ – это всё, что есть. Контекст за пределами текста не существует.
Поместите “He went to the bank” в контекст – и ИИ начинает рассуждать с четырьмя ветвями неопределённости. Он выбирает “наиболее правдоподобную” интерпретацию и принимает риск ошибки.
Вот почему естественный язык невыгоден для контекста ИИ.
Пишите ясно – и количество токенов раздувается, растрачивая пространство окна. Пишите кратко – и неоднозначность становится сырьём для галлюцинаций.
Пока вы используете естественный язык, из этой дилеммы нет выхода.
Структурная ясность как решение
Чтобы решить эту дилемму, нужно разрушить компромисс между ясностью и краткостью.
В естественном языке это невозможно. Разрешение неоднозначности требует добавления слов.
Но в структурно ясном представлении это возможно.
В естественном языке для уточнения “Ким Чхольсу” нужно написать “Ким Чхольсу, начальник отдела финансовой группы Samsung Electronics”. В структурированном представлении достаточно одного уникального идентификатора. Идентификатор изначально уникален. Модификатор “финансовая группа Samsung Electronics” не нужен. Модификаторы – это устройства устранения неоднозначности для людей – для машин они не нужны.
В естественном языке для разрешения того, означает ли “bank” финансовое учреждение или берег реки, нужно написать “банк Shinhan, отделение в Каннам”. В структурированном представлении идентификатор сущности указывает на финансовое учреждение. Неоднозначность блокируется у источника самой структурой.
В естественном языке для указания временной метки нужно написать “понедельник, 15 января 2024 года”. В структурированном представлении значение попадает в поле времени. Поскольку поле существует, пропуск невозможен. Поскольку значение типизировано, нет неоднозначности интерпретации.
В структурной ясности стоимость устранения неоднозначности сходится к нулю. Идентификаторы однозначны, поэтому модификаторы не нужны. Поля существуют, поэтому пропуск невозможен. Значения типизированы, поэтому интерпретация детерминирована.
Сжатие – побочный продукт прояснения
Здесь происходит нечто интересное.
Делая яснее – делаешь короче.
В естественном языке ясность делает длиннее. В структурированном представлении ясность делает короче.
Почему?
Потому что большая часть того, что делает предложения естественного языка длинными – это стоимость устранения неоднозначности.
В “Ким Чхольсу, начальник отдела финансовой группы Samsung Electronics” “финансовая группа Samsung Electronics” и “начальник отдела” – это не информация, а устройства идентификации. Это модификаторы для сужения того, кто такой “он”. С уникальным идентификатором все эти модификаторы исчезают.
В “понедельник, 15 января 2024 года” слово “понедельник” избыточно. 15 января уже определяет день недели. Тем не менее в естественном языке такая избыточность конвенционально добавляется для ясности. В типизированном поле времени такая избыточность структурно невозможна.
В результате структурного прояснения выражение становится короче, чем на естественном языке.
Это не намеренное сжатие. Это результат исчезновения стоимости устранения неоднозначности.
Парадокс одного предложения
Здесь нужно честно признать кое-что.
Для одного предложения структурированное представление может быть длиннее естественного языка.
“Ли Сунсин был великим.”
На естественном языке это делается за 7 токенов. Конвертируйте в структурированное представление – узел сущности, узел атрибута, глагольное ребро, время, поле достоверности – и структурные накладные расходы могут быть больше самого предложения.
Это правда. Есть фиксированная стоимость встраивания ясности в структуру.
Но по мере роста количества высказываний происходит переворот.
Если есть 100 высказываний о Ли Сунсине, естественный язык пишет “Ли Сунсин” 100 раз. В структурированном представлении вы определяете узел Ли Сунсина один раз, и 100 рёбер на него ссылаются.
Если 50 высказываний из одного источника, естественный язык цитирует источник каждый раз или опускает и становится двусмысленным. В структурированном представлении метаданные привязываются один раз.
По мере накопления высказываний доля общих узлов растёт. По мере роста доли общих узлов выигрыш от структурной ясности увеличивается.
На практике переворот начинается примерно при 20 высказываниях. В контекст-инженерии редко бывает, чтобы информация, помещаемая в окно, содержала менее 20 высказываний.
На практике структурированное представление всегда яснее и всегда короче.
Цепная реакция, которую создаёт ясность
Прояснение порождает не только сжатие.
Индексация становится возможной. Когда есть однозначные идентификаторы, точный поиск становится возможным. Поиск “выручка Apple” не вытягивает “пищевую ценность яблока”. Если идентификатор кодирует смысл, одна битовая маска сужает кандидатов.
Валидация становится возможной. Когда структура типизирована, “является ли это допустимым выражением?” можно оценить механически. В естественном языке понятия “недопустимое предложение” не существует. В ясной структуре, если обязательное поле пусто, – это недопустимо.
Проверка согласованности становится возможной. Когда высказывания об одной и той же сущности однозначны, “противоречат ли эти два высказывания друг другу?” можно оценить механически. В естественном языке для определения, противоречат ли “генеральный директор – A” и “генеральный директор – B”, ИИ должен прочитать оба предложения и рассуждать. В ясной структуре – та же сущность, то же отношение, разные значения – обнаруживается автоматически.
Ясность – предусловие всего пайплайна контекст-инженерии. Индексация, валидация, фильтрация, проверка согласованности – ничто из этого не работает, если информация не ясна.
Прояснение – не этап пайплайна. Это условие, делающее пайплайн возможным.
Резюме
В естественном языке ясность и краткость – компромисс. Ясно означает длинно. Коротко означает двусмысленно.
У ИИ нет общего контекста. Неоднозначность естественного языка становится сырьём для галлюцинаций. Разрешение неоднозначности раздувает количество токенов и растрачивает окно.
Структурно ясное представление разрушает этот компромисс. Уникальные идентификаторы блокируют неоднозначность у источника. Типизированные поля делают пропуск невозможным. Когда стоимость устранения неоднозначности исчезает, сжатие следует как побочный продукт.
Прояснение – предусловие контекст-инженерии. Если информация не ясна, индексация, валидация и проверка согласованности не работают.
Сжатие – не цель. Прояснение – цель. Сжатие следует.