Verbos eram necessários.

Para que a IA descreva o mundo, é preciso haver verbos. Na frase “O almirante coreano Yi Sun-sin construiu o navio-tartaruga”, sem “construiu” não há frase.

Para identificação de entidades existe a Wikidata. Yi Sun-sin é Q28090. O navio-tartaruga é Q249845. A identificação já está feita.

Para verbos não existe equivalente. Não há um ID para “construir”. Não há critério consensual que determine se “construir”, “fabricar” e “produzir” têm o mesmo sentido ou sentidos diferentes.

Todo projeto que lida com verbos — seja grafo de conhecimento, busca semântica ou design de linguagem estruturada — inevitavelmente encontra esta pergunta: de onde trazer o sistema de verbos?


Construir do zero

É possível projetar uma lista de verbos desde o início.

move, give, think, feel, say. Definimos uns 50 verbos básicos e adicionamos verbos subordinados. Abaixo de move: walk, run, crawl. Abaixo de give: donate, bestow, grant.

Surgem três problemas.

Primeiro, lacunas. Quando uma pessoa enumera verbos de cabeça, inevitavelmente falta algo. Esquece “adsorver”, esquece “ruminar”, esquece “resignar-se”. No momento em que o verbo ausente é necessário, o sistema quebra.

Segundo, falta de critério. walk e stroll são verbos separados ou variações do mesmo verbo? Ao construir manualmente, esse julgamento depende da intuição do projetista. E a intuição varia de pessoa para pessoa.

Terceiro, a hierarquia é arbitrária. Colocamos walk abaixo de move, mas walk também pode ser subordinado a travel. O projetista decide onde colocar. Essa decisão não tem fundamento objetivo.

Um sistema de verbos construído manualmente parece perfeito na cabeça de seu criador. Quando outra pessoa olha, a reação é: “Por que foi classificado assim?”


O legado WordNet

Um banco de dados lexical do inglês cuja construção começou na Universidade de Princeton em 1985.

Durante 40 anos, linguistas agruparam palavras inglesas em unidades de significado (synset) e as conectaram por relações hierárquicas. Só de verbos são 13.767 synsets. Cada synset tem um ID único, uma definição e relações explícitas com outros synsets.

“donate” e “bestow” estão agrupados no mesmo synset. Significa que têm o mesmo sentido. “donate” é um troponym de “give”. Significa que é uma forma específica de give. “give” é um troponym de “transfer”. Significa que é uma forma específica de transfer.

Essa hierarquia já está organizada para 13.767 verbos.

Sem lacunas. Porque linguistas a preencheram durante 40 anos. Com critérios. Porque as definições e relações dos synsets são explícitas. Com hierarquia fundamentada. Porque as relações de troponym são baseadas em análise linguística.


Dicionário e gramática são coisas diferentes

Se WordNet é o dicionário de verbos, como usar esses verbos é uma questão separada.

WordNet nos diz qual é o significado de “give” e qual sua relação com “donate”. Mas não nos diz a estrutura de uso de “give” numa frase — quem dá, o que é dado, a quem é dado.

Isso é análogo à relação com Wikidata. Wikidata nos diz que Yi Sun-sin é Q28090. Mas como compor uma frase sobre Yi Sun-sin não é responsabilidade da Wikidata.

Emprestamos o dicionário, mas construímos a gramática nós mesmos.

O que pegamos da WordNet: IDs de synset, definições semânticas e a árvore hierárquica de troponym. Os verb frames, estruturas de participantes e padrões sintáticos que WordNet também fornece são melhor projetados por cada projeto individualmente. Porque as informações sintáticas da WordNet estão vinculadas ao inglês, e o sistema semântico do verbo e seu modo de uso são questões independentes.


De 13.767 a 10

Listar todos os 13.767 verbos da WordNet não tem utilidade. É preciso estrutura.

Subindo pela árvore de troponym da WordNet, chegamos a nós de topo que não têm superior. Os verbos raiz. São 559.

Agrupando os 559 semanticamente, obtemos 68 sub-primitivos (sub-primitive). Agrupando os 68 mais, obtemos 10 primitivos (primitive).

13.767 verbos → 559 raízes → 68 sub-primitivos → 10 primitivos

BE        — existência, posse, localização
PERCEIVE  — percepção, detecção, descoberta
FEEL      — emoção, preferência, desejo
THINK     — pensamento, julgamento, memória
CHANGE    — mudança, início, fim
CAUSE     — ação, criação, destruição
MOVE      — movimento, chegada, partida
COMMUNICATE — fala, indicação, acordo
TRANSFER  — entrega, recebimento, troca
SOCIAL    — cooperação, competição, pertencimento

Esses 10 são os primitivos semânticos dos verbos humanos. Não vêm da intuição de um indivíduo, mas da estrutura de 40 anos de acumulação da WordNet e 13.767 pontos de dados.

Essa hierarquia de quatro camadas — primitivos, sub-primitivos, raízes, verbos individuais — permite ajuste de resolução. Numa visão ampla, há 10 tipos de ações; numa visão detalhada, 13.767. Basta ler na resolução necessária.


Expansão e compressão

Se 13.767 não bastam? Novos verbos podem ser adicionados. Verbos multilíngues, neologismos, termos técnicos. Adiciona-se ao sub-primitivo correspondente. O sistema existente não se quebra.

Se 13.767 são demais? Synsets sinônimos podem ser fundidos em um. Redireciona-se donate para give. Dados previamente registrados como donate encontram give. Mesmo princípio do HTTP 301.

O importante é a ordem. Primeiro incluir tudo, rodar na prática, observar os dados de uso e depois reduzir. Reduzir no papel sem dados elimina distinções necessárias.


Além: átomos semânticos

Os 13.767 verbos da WordNet são a lista de verbos nomeados por humanos. Abrangente, mas não é tudo.

“give” pode ser decomposto ainda mais: CAUSE + HAVE + MOVE. Decomposição em átomos semânticos (semantic primitive). Quando essa decomposição estiver completa, verbos que não constam na lista poderão ser expressos por combinação de átomos.

Se WordNet é uma biblioteca padrão, o sistema de átomos semânticos é o compilador. Assim como o compilador pode criar funções que não existem na biblioteca padrão.

Isso é um grande desafio de pesquisa, a ser tentado depois que o sistema baseado em WordNet estiver funcionando. Por enquanto, a biblioteca padrão é suficiente.


Resumo

Todo projeto que busca construir um sistema de verbos encontra a mesma pergunta: de onde trazê-lo?

Construir do zero significa lacunas, arbitrariedade e falta de fundamento. Construir sobre WordNet significa sem lacunas, consenso e base em dados.

WordNet é o dicionário de verbos da humanidade, acumulado por linguistas durante 40 anos. Emprestamos as palavras desse dicionário, mas construímos a gramática nós mesmos. É por isso que usamos Wikidata para entidades e WordNet para verbos.