Por que es necesaria la clarificacion

El lenguaje natural inevitablemente se alarga para resolver la ambiguedad. En una estructura clara, ese costo desaparece.

El costo de la ambiguedad

“El fue al banco.”

7 tokens. Corto. Parece eficiente.

Pero esta frase es inutilizable. No puede ponerse en el contexto de razonamiento de la IA. Porque es ambigua.

Quien es “el”? Es “banco” una institucion financiera o la orilla de un rio? Cuando fue? Por que fue?

Razonar a partir de esta frase produce cuatro ramas de incertidumbre. La incertidumbre se propaga a traves de cada paso subsiguiente de razonamiento. Cuando la incertidumbre propagada se emite como si fuera certeza, eso es alucinacion.

Entonces el lenguaje natural intenta resolver la ambiguedad. La unica forma de resolverla es usar mas palabras.

El costo de la resolucion

Veamos una version inequivoca de la frase.

“Kim Cheolsu, jefe de seccion del equipo de finanzas de Samsung Electronics, visito la sucursal de Gangnam del Banco Shinhan el lunes 15 de enero de 2024, para abrir una cuenta corporativa.”

Ahora no hay ambiguedad. El sujeto esta especificado. La ubicacion esta especificada. La marca de tiempo esta declarada. El proposito esta declarado.

Pero 7 tokens se han convertido en 40.

Los 33 tokens adicionales son completamente el costo de desambiguacion. No son informacion nueva. Especificar “el” como “Kim Cheolsu, jefe de seccion del equipo de finanzas de Samsung Electronics” no anadio significado — removio ambiguedad.

En lenguaje natural, la claridad no es gratuita. Para ser claro, debes ser extenso. Esta es una propiedad estructural del lenguaje natural.

Por que el lenguaje natural inevitablemente se alarga

El lenguaje natural evoluciono para la comunicacion entre humanos. En la comunicacion humana, la ambiguedad es una caracteristica.

“El fue al banco, me dicen.”

Si el hablante y el oyente comparten el mismo contexto, ya saben quien es “el” y cual es el “banco.” 7 tokens es suficiente. La ambiguedad es un mecanismo de compresion. Omite confiando en el contexto compartido.

El problema surge en el lado de la descompresion.

Para transmitir el mensaje a alguien que no comparte el contexto, todo lo que fue omitido debe restaurarse. La restauracion lo alarga.

En lenguaje natural, claridad y brevedad son un trade-off. Claro significa largo. Corto significa ambiguo. No puedes tener ambos a la vez.

Esta es la restriccion fundamental del lenguaje natural.

La IA no tiene contexto compartido

En la conversacion entre humanos, la ambiguedad es eficiente. Decadas de experiencia compartida, trasfondo cultural y flujo conversacional resuelven automaticamente la ambiguedad.

La IA no tiene esto.

El texto dentro de la ventana de contexto de la IA es todo lo que hay. El contexto fuera del texto no existe.

Pon “El fue al banco” en el contexto, y la IA comienza a razonar con cuatro ramas de incertidumbre. Elige la interpretacion “mas plausible” y acepta el riesgo de equivocarse.

Por eso el lenguaje natural es desventajoso para el contexto de la IA.

Escribe claramente y el recuento de tokens se infla, desperdiciando espacio de ventana. Escribe brevemente y la ambiguedad se convierte en materia prima para la alucinacion.

Mientras uses lenguaje natural, no hay escape de este dilema.

La claridad estructural como solucion

Para resolver este dilema, debes romper el trade-off entre claridad y brevedad.

En lenguaje natural, esto es imposible. Resolver la ambiguedad requiere anadir palabras.

Pero en una representacion estructuralmente clara, es posible.

En lenguaje natural, especificar “Kim Cheolsu” requiere escribir “Kim Cheolsu, jefe de seccion del equipo de finanzas de Samsung Electronics.” En una representacion estructurada, un solo identificador unico hace el trabajo. El identificador es inherentemente unico. El modificador “equipo de finanzas de Samsung Electronics” es innecesario. Los modificadores son dispositivos de desambiguacion para humanos — son innecesarios para maquinas.

En lenguaje natural, resolver si “banco” significa una institucion financiera o la orilla de un rio requiere escribir “Banco Shinhan, sucursal de Gangnam.” En una representacion estructurada, el identificador de la entidad apunta a la institucion financiera. La ambiguedad se bloquea en la fuente por la estructura.

En lenguaje natural, especificar una marca de tiempo requiere escribir “lunes, 15 de enero de 2024.” En una representacion estructurada, un valor va en el campo de tiempo. Porque el campo existe, la omision es imposible. Porque el valor esta tipado, no hay ambiguedad interpretativa.

En claridad estructural, el costo de desambiguacion converge a cero. Los identificadores son inequivocos, asi que los modificadores son innecesarios. Los campos existen, asi que la omision es imposible. Los valores estan tipados, asi que la interpretacion es deterministica.

La compresion es un subproducto de la clarificacion

Aqui es donde sucede algo interesante.

Hacerlo claro lo hace mas corto.

En lenguaje natural, la claridad alarga las cosas. En representacion estructurada, la claridad acorta las cosas.

Por que?

Porque la mayor parte de lo que hace largas las frases en lenguaje natural es el costo de desambiguacion.

En “Kim Cheolsu, jefe de seccion del equipo de finanzas de Samsung Electronics”, “equipo de finanzas de Samsung Electronics” y “jefe de seccion” no son informacion — son dispositivos de identificacion. Son modificadores para acotar quien es “el.” Con un identificador unico, todos estos modificadores desaparecen.

En “lunes, 15 de enero de 2024”, la palabra “lunes” es redundante. El 15 de enero ya determina el dia de la semana. Sin embargo, en lenguaje natural, tal redundancia se anade convencionalmente para claridad. En un campo de tiempo tipado, tal redundancia es estructuralmente imposible.

Como resultado de la clarificacion estructural, la expresion se vuelve mas corta que el lenguaje natural.

Esto no es compresion intencional. Es el resultado de la desaparicion del costo de desambiguacion.

La paradoja de una sola frase

Hay algo que admitir aqui.

Para una sola frase, una representacion estructurada puede ser mas larga que el lenguaje natural.

“Yi Sun-sin fue grandioso.”

En lenguaje natural, esto se hace en 7 tokens. Convertirlo a una representacion estructurada — nodo de entidad, nodo de atributo, arista de verbo, tiempo, campo de confianza — y la sobrecarga estructural puede ser mayor que la frase misma.

Esto es cierto. Hay un costo fijo al incrustar claridad en la estructura.

Pero a medida que el numero de enunciados crece, ocurre una inversion.

Si hay 100 enunciados sobre Yi Sun-sin, el lenguaje natural escribe “Yi Sun-sin” 100 veces. En una representacion estructurada, defines el nodo de Yi Sun-sin una vez y 100 aristas lo referencian.

Si 50 enunciados provienen de la misma fuente, el lenguaje natural cita la fuente cada vez o la omite y se vuelve ambiguo. En una representacion estructurada, los metadatos se vinculan una vez.

A medida que los enunciados se acumulan, las tasas de comparticion de nodos suben. A medida que las tasas de comparticion de nodos suben, las ganancias de la claridad estructural crecen.

En la practica, la inversion comienza con aproximadamente 20 enunciados. En ingenieria de contexto, es raro que la informacion colocada en la ventana sea menor a 20 enunciados.

En terminos practicos, la representacion estructurada siempre es clara y siempre es mas corta.

La reaccion en cadena que la claridad crea

La clarificacion no solo produce compresion.

La indexacion se hace posible. Cuando hay identificadores inequivocos, la busqueda precisa se hace posible. Buscar “ingresos de Apple” no trae “informacion nutricional de la manzana.” Si el identificador codifica significado, una sola mascara de bits reduce los candidatos.

La validacion se hace posible. Cuando la estructura esta tipada, “es esta una expresion valida?” puede juzgarse mecanicamente. En lenguaje natural, el concepto de una “frase invalida” no existe. En una estructura clara, si un campo requerido esta vacio, es invalido.

La verificacion de consistencia se hace posible. Cuando los enunciados sobre la misma entidad son inequivocos, “estos dos enunciados se contradicen?” puede juzgarse mecanicamente. En lenguaje natural, determinar si “el CEO es A” y “el CEO es B” son contradictorios requiere que la IA lea ambas frases y razone. En una estructura clara — misma entidad, misma relacion, diferentes valores — se auto-detecta.

La claridad es la precondicion para todo el pipeline de ingenieria de contexto. Indexacion, validacion, filtrado, verificacion de consistencia — nada de eso funciona si la informacion no es clara.

La clarificacion no es una etapa del pipeline. Es la condicion que hace posible el pipeline.

Resumen

En lenguaje natural, claridad y brevedad son un trade-off. Claro significa largo. Corto significa ambiguo.

La IA no tiene contexto compartido. La ambiguedad del lenguaje natural se convierte en materia prima para la alucinacion. Resolver la ambiguedad infla el recuento de tokens y desperdicia la ventana.

Una representacion estructuralmente clara rompe este trade-off. Los identificadores unicos bloquean la ambiguedad en la fuente. Los campos tipados hacen la omision imposible. Cuando el costo de desambiguacion desaparece, la compresion sigue como subproducto.

La clarificacion es la precondicion para la ingenieria de contexto. Si la informacion no es clara, la indexacion, validacion y verificacion de consistencia no funcionan.

La compresion no es el objetivo. La clarificacion es el objetivo. La compresion sigue.