Por que vetores de embedding não são suficientes

Vetores são ótimos para cálculo, mas impossíveis de interpretar. Não se pode tornar o interior de uma caixa preta transparente.

Vetores de embedding são uma tecnologia notável

“Rei - Homem + Mulher = Rainha.”

Quando o word2vec demonstrou isso, o mundo ficou perplexo. Represente palavras como vetores com centenas de dimensões e as relações semânticas emergem como operações vetoriais.

Vetores de embedding são a base dos LLMs. Tudo num transformer é computação vetorial. Tokens se tornam vetores. A atenção calcula a similaridade entre vetores. As saídas são convertidas de vetores de volta para tokens.

Significados semelhantes são vetores próximos. Significados diferentes são vetores distantes. Busca é cálculo de similaridade vetorial. Classificação é definição de fronteiras no espaço vetorial.

Sem vetores de embedding, a IA atual não existiria.

Então, por que não usar vetores de embedding para representar conhecimento? Alinhá-los diretamente, estruturá-los, torná-los interpretáveis.

Não funciona. A forma mais segura de saber isso é tentar.

AILEV: Tentamos

O projeto GEUL começou originalmente com o nome AILEV.

AI Language Embedding Vector.

O nome por si só declarava o propósito: uma linguagem de IA que manipula diretamente vetores de embedding.

O conceito era o seguinte:

Representar significado com vetores de 512 dimensões. Atribuir papéis a segmentos do vetor. As primeiras 128 dimensões para entidades, as próximas 128 para relações, as próximas 128 para propriedades, o restante para metadados. Assim como o RGBA decompõe cor em quatro canais, decompor significado em segmentos dimensionais.

Treinar o BERT para converter linguagem natural nesses vetores estruturados. Ao inserir “Seul é a capital da Coreia”, o segmento de entidades produz o vetor de Seul, o de relações produz o vetor de capital, o de propriedades produz o vetor de Coreia.

Como são vetores, o cálculo é possível. A busca por similaridade é possível. Reduzir dimensões proporciona degradação elegante. Passar de 512 para 256 dimensões perde precisão, mas preserva o significado essencial.

Era elegante. Na teoria.

Por que falha

Reorganizar vetores arbitrariamente quebra o modelo

Os vetores de embedding de um LLM são produto do treinamento.

Após ler bilhões de textos, o modelo otimiza por conta própria suas representações internas. O que cada dimensão significa é algo que o modelo decidiu. Não uma pessoa.

O que acontece se você declara “as primeiras 128 dimensões são para entidades”?

No espaço vetorial que o modelo aprendeu, a informação de entidades não reside nas primeiras 128 dimensões. Está distribuída por todas as 768 dimensões. Informação de relações, propriedades, tempos verbais — tudo misturado.

Isso não é um erro de design, mas a natureza do aprendizado. A retropropagação encontra o arranjo vetorial ótimo para a tarefa. Não encontra um arranjo interpretável. Ótimo e interpretável não são a mesma coisa.

Se você reorganizar vetores à força — “entidades aqui, relações ali” — as relações estatísticas que o modelo aprendeu se quebram. O desempenho cai.

Reorganizar sem quebrar significa reconstruir o modelo

Então, por que não treinar do zero com a restrição “as primeiras 128 dimensões são para entidades”?

É possível. Na teoria. Mas isso não é alinhar vetores de embedding. É projetar uma nova arquitetura de modelo.

Precisa-se de dados de treinamento. Bilhões de tokens. Precisa-se de infraestrutura. Milhares de GPUs. Precisa-se de tempo de treinamento. Meses. E não há garantia de que o modelo resultante funcione tão bem quanto os LLMs existentes.

O esforço é grande demais.

O problema de “alinhar vetores para torná-los interpretáveis” se transformou em “reconstruir um LLM do zero”. Isso não é resolver o problema, mas ampliá-lo.

A interpretação é impossível

Suponha que você tenha conseguido criar um vetor estruturado. Um vetor de 512 dimensões. Digamos que as primeiras 128 dimensões sejam para entidades.

O segmento de entidades vale [0.23, -0.47, 0.81, 0.12, ...].

Como saber se isso é “Samsung Electronics” ou “Hyundai Motor”?

É preciso encontrar o vetor mais próximo. É preciso calcular a similaridade num banco de dados vetorial. E obtém-se uma resposta probabilística: “provavelmente Samsung Electronics”.

“Provavelmente.”

Vetores são inerentemente contínuos. Entre os vetores de Samsung Electronics e SK Hynix existem infinitos vetores intermediários. Ninguém sabe o que esses vetores intermediários significam.

Isso não é uma limitação técnica, mas uma verdade matemática. Representar significados discretos num espaço contínuo torna as fronteiras ambíguas. A ambiguidade era o problema da linguagem natural. Trocamos para vetores, e a ambiguidade voltou.

Só a forma mudou. Na linguagem natural, a ambiguidade das palavras. Nos vetores, a ambiguidade das coordenadas.

O princípio da caixa branca

Aqui se revela a questão fundamental de design.

Vetores de embedding são uma caixa preta. Olhando para um vetor de 768 dimensões de valores reais, ninguém consegue dizer que informação está codificada onde. O próprio modelo não consegue explicar.

Isso não é uma característica inconveniente, mas uma propriedade ontológica. É precisamente por isso que os vetores funcionam. Porque organizam informação de formas que humanos não projetaram, funcionam melhor do que qualquer projeto humano. A impossibilidade de interpretação não é um defeito, mas uma funcionalidade.

No entanto, o conhecimento usado como contexto de IA exige o oposto.

É preciso saber a fonte. É preciso saber o momento. É preciso saber o nível de confiança. É preciso saber sobre o que é a afirmação. É preciso saber se duas afirmações se referem à mesma entidade.

Cada requisito é “é preciso saber”. Cada requisito exige interpretabilidade.

Satisfazer exigências de caixa branca com um vetor de caixa preta é uma contradição.

A lógica da virada

A virada de AILEV para GEUL não foi uma desistência. Foi uma redefinição do problema.

Problema original: LLMs são caixas pretas. Vamos tornar o interior transparente. → Vamos tornar vetores de embedding interpretáveis alinhando-os. → Mexer nos vetores quebra o modelo. → Evitar a quebra significa reconstruir o modelo. → Beco sem saída.

Problema redefinido: Não é preciso tornar o interior da caixa preta transparente. Vamos construir uma camada transparente do lado de fora. → Não se mexe no interior do LLM. → Fora do LLM, cria-se um sistema de representação interpretável. → O LLM pode ler e escrever esse sistema. Porque são tokens. → Uma linguagem artificial.

Não vetores, mas linguagem. Não contínuo, mas discreto. Não ininterpretável, mas com a interpretação como único propósito. Não dentro do modelo, mas fora do modelo.

O “Embedding Vector” de AILEV foi removido, e surgiu GEUL — que significa “escrita”. Esta é a razão.

Vetores para o cálculo, linguagem para a representação

Isso não é uma rejeição dos vetores de embedding.

Vetores são otimizados para o cálculo. Busca por similaridade, agrupamento, classificação, recuperação. A linguagem não pode substituir o que os vetores fazem.

A linguagem é otimizada para a representação. Identidade de entidades, descrição de relações, metadados integrados, interpretabilidade. Os vetores não podem substituir o que a linguagem faz.

São ferramentas em camadas diferentes.

Dentro do LLM, vetores operam. Uma caixa preta. Assim deve ser. Fora do LLM, a linguagem opera. Uma caixa branca. Assim deve ser.

O problema começou quando essas duas camadas foram confundidas. Tentou-se fazer os vetores realizarem o trabalho da linguagem. Tentou-se atribuir a uma caixa preta o papel de uma caixa branca.

Cada um tem o seu lugar.

Resumo

Vetores de embedding são a base dos LLMs e uma tecnologia notável. No entanto, como meio de representação de conhecimento, têm limites fundamentais.

GEUL começou como AILEV (AI Language Embedding Vector). O objetivo era alinhar vetores diretamente e torná-los interpretáveis. Falhou. Por dois motivos.

Alinhar vetores arbitrariamente quebra as relações que o modelo aprendeu. Alinhar sem quebrar significa reconstruir o modelo do zero. O esforço é grande demais.

E mesmo se tivesse sucesso, vetores não podem ser interpretados. Num espaço contínuo, as fronteiras do significado discreto são ambíguas. Não se pode atribuir a uma caixa preta o papel de uma caixa branca.

A lógica da virada: Tentou-se tornar o interior da caixa preta transparente. Mexer no interior o quebra. Em vez disso, deixar o interior intacto e construir uma camada transparente do lado de fora. Não vetores, mas linguagem. Não dentro do modelo, mas fora do modelo.

Vetores para o cálculo, linguagem para a representação. Cada um tem o seu lugar.