Sementes Livres, Solos Próprios: Por que o Conhecimento Tradicional exige uma Arquitetura Federada

Sempre que converso com colegas da área de tecnologia sobre modelagem de sistemas e bancos de dados, noto uma reação que descrevo como quase pavloviana: o impulso irresistível de centralizar. A fantasia do "grande repositório centralizado" — aquele imenso servidor onde todas as tabelas são uniformes, onde cada registro reside sob o mesmo teto digital e é controlado por uma única chave mestra — é um dos mitos mais persistentes e sedutores da engenharia de software.

Confesso: por muito tempo, eu também comprei essa ideia. Afinal, por que complicar o que parece tão simples e limpo no papel? Um único banco de dados (digamos, um MongoDB ou PostgreSQL), um único esquema de dados padronizado, e pronto: temos a solução perfeita para integrar dados de biodiversidade e o Conhecimento Tradicional Associado (CTA).

Mas o conhecimento tradicional não é um dado comum. Ele não é como uma ocorrência biológica fria coletada por um sensor automático ou uma amostra de herbário que podemos catalogar em gavetas rígidas e padronizadas sem maiores consequências sociais. O CTA é vivo, é dinâmico e, acima de tudo, pertence a alguém. Ele reside na memória de Povos Indígenas, Comunidades Quilombolas e Povos Tradicionais (PIPCTAFs). São eles os verdadeiros guardiões dessas "sementes" de saber.

Quando forçamos essas comunidades a depositar suas sementes de conhecimento em um silo central administrado por terceiros (seja um ministério, uma universidade ou uma ONG), estamos cometendo um erro metodológico, ético e político profundo. Estamos violando, na sua essência, o A dos princípios C.A.R.E. (Authority to Control — Autoridade para Controlar). Se os dados não estão fisicamente sob o controle de quem os gerou, a soberania é apenas uma promessa bonita em um termo de consentimento.

Foi esse incômodo ético que nos levou a repensar completamente o projeto etnoArquitetura e dar o salto para a versão 3.0: uma arquitetura explicitamente federada.

O Dilema do Solo Único (A Versão 2.0)

Até recentemente, nossa arquitetura (Versão 2.0) operava sob um modelo que, embora moderno, ainda carregava a herança do centralismo. Tínhamos diferentes ferramentas excelentes se comunicando, mas todas orbitavam um mesmo banco de dados MongoDB compartilhado.

A fragilidade desse modelo não é de desempenho, mas de governança. Imagine uma comunidade tradicional que registra o uso medicinal de uma planta sagrada por meio do aplicativo etnoRelatos. Os dados de campo, protegidos por protocolos comunitários sensíveis, acabavam caindo no mesmo "balde" de dados (o MongoDB central) usado por uma equipe de pesquisa universitária para catalogar artigos científicos no etnoDB.

Se amanhã a comunidade decidisse que não quer mais compartilhar aquela informação, como garantiríamos a exclusão real de cópias de segurança compartilhadas? Como explicar que a "autoridade de controle" de seu patrimônio imaterial estava nas mãos de um administrador de banco de dados terceirizado? O solo onde as sementes eram plantadas não pertencia à comunidade.

A Mudança de Paradigma da v3.0: O nascimento do Pluriverso

Para que a tecnologia sirva à justiça socioambiental, o software precisa espelhar a estrutura política e ética do mundo real. Na versão 3.0, explodimos o silo central.

Cada iniciativa científica e cada comunidade tradicional agora opera em seu próprio solo digital. Elas têm sua infraestrutura independente: seu próprio servidor, seu próprio banco de dados e seu próprio sistema de termos. Elas são 100% soberanas.

E como fazemos para que esses mundos conversem sem perder a independência? Introduzimos o Pluriverso — um middleware de federação que atua como uma ponte de respeito e tradução mútua.

Os Personagens Desse Ecossistema

Para tornar esse ecossistema palpável, vamos dar nome e função aos blocos dessa engrenagem. Eles foram projetados para serem modulares, trabalhando juntos, mas mantendo barreiras tecnológicas de segurança:

BioCultDB (antigo "etnoDB") (A Biblioteca do Conhecimento Publicado): Uma interface web focada em conhecimento secundário (extraído de artigos, teses e livros). Ele divide o fluxo de trabalho em três interfaces rígidas: Aquisição (entrada de dados por pesquisadores), Curadoria (validação rigorosa de taxonomia e fontes) e Apresentação (onde há um assistente conversacional com IA chamado etnoChat e um Painel Analítico dinâmico).
BioCultPapers (antigo "etnopapers") (O Garimpeiro com IA): Um aplicativo de desktop que utiliza modelos de linguagem (como Gemini e Claude) para analisar montanhas de PDFs científicos e extrair, de forma estruturada, metadados biológicos e relatos de usos tradicionais descritos na literatura. Ele poupa meses de trabalho manual dos curadores do etnoDB.
BioCultRelatos (antigo "etnoRelatos") (A Escuta Atenta e Consensual): Dedicado exclusivamente à captura de dados primários (direto no campo com os detentores do saber). Aqui, a regra de ouro é o CLPI (Consentimento Livre, Prévio e Informado) exigido pela Lei da Biodiversidade (Lei 13.123/2015). Se a comunidade não der um "sim" explícito e documentado, o dado simplesmente não entra no sistema.
BioCultTermos (antigo "etnoTermos") (O Guardião da Linguagem): Uma plataforma de gestão terminológica baseada no padrão internacional SKOS-XL da W3C. É o etnoTermos que lida com o fato de que uma mesma planta pode ter cem nomes populares e conexões hierárquicas complexas. Na v3.0, cada membro roda sua própria instância do etnoTermos, garantindo que nenhuma comunidade seja obrigada a adotar a taxonomia conceitual de outra.
Pluriverso - A Ponte Federada: O middleware central. Ele não acessa os bancos de dados soberanos diretamente e não faz consultas em tempo real para evitar lentidão. Ele realiza coletas periódicas (harvesting) via APIs REST paginadas, buscando apenas os registros que cada comunidade marcou explicitamente como visibility: public.

O Respeito à Linguagem: O Caso da Mandioca (Manihot esculenta)

Vamos ver um exemplo prático de como a harmonia semântica funciona sem opressão linguística.

Suponha que a Iniciativa Científica #1 catalogue o uso da mandioca em artigos usando o termo científico de referência Manihot esculenta. Em paralelo, a Comunidade Tradicional #2 registra em seu próprio sistema o conhecimento sobre a raiz, chamando-a pelo nome tradicional na sua língua nativa (por exemplo, Maniaka). Já a Comunidade #3 (um Quilombo) registra suas práticas usando o termo vernacular Macaxeira.

No modelo antigo e centralizado, seríamos tentados a forçar todos a usar um termo padronizado unificado ou "corrigir" as entradas para facilitar a busca. Na v3.0, respeitamos a soberania de cada vocabulário tradicional.

O Pluriverso entra em cena não como um ditador taxonômico, mas como um tradutor semântico. Utilizando as relações ricas do padrão SKOS-XL, o curador da federação mapeia as conexões sem fundir os termos de maneira violenta:

Quando um pesquisador faz uma busca na API do Pluriverso por "Mandioca", o sistema percorre essa rede de equivalências linguísticas e semânticas respeitosas. Ele recupera os registros públicos de todas as entidades federadas, mas preserva na tela o nome exato que cada comunidade escolheu usar para registrar sua própria realidade.

A Reversibilidade: O Direito ao Esquecimento

Há outro princípio fundamental do CARE que muitas vezes é ignorado na engenharia de sistemas tradicional: a reversibilidade.

Se uma comunidade tradicional decidir que as condições de governança da federação mudaram e que ela não se sente mais segura em compartilhar seus conhecimentos públicos com o Pluriverso, ela tem o direito sagrado de sair.

Em sistemas centralizados tradicionais, remover os dados de uma entidade específica é um pesadelo técnico: os registros estão espalhados, misturados, salvos em logs e indexados de formas que tornam a remoção completa quase impossível.

Na arquitetura federada da etnoArquitetura v3.0, a saída é limpa, auditável e imediata. O Pluriverso implementa uma operação de expurgo dedicada (purge_by_member). No momento em que a comunidade cancela sua participação, o Pluriverso deleta instantaneamente todos os seus dados coletados do índice central e desfaz os mapeamentos de equivalência semântica. Os dados primários nunca deixaram de residir unicamente no MongoDB soberano e seguro da própria comunidade.

Tecnologia que Escuta

Construir a etnoArquitetura v3.0 nos ensinou que a excelência técnica em engenharia de software não se mede apenas pela latência de milissegundos ou pela elegância de um esquema JSON limpo. Mede-se pela capacidade do sistema de se curvar com respeito e humildade diante das complexidades humanas, históricas e éticas das populações que ele pretende apoiar.

A descentralização dá trabalho. Desenhar endpoints de harvest paginados com controle de concorrência, gerenciar o mapeamento SKOS-XL descentralizado e lidar com a latência de coletas periódicas exige muito mais massa cinzenta do que subir um único banco centralizado no Docker.

No entanto, quando vemos uma comunidade tradicional tendo as chaves de seu próprio banco de dados, decidindo de forma independente o que expor e o que proteger, entendemos que esse é o único caminho técnico viável. É a tecnologia deixando de ser um instrumento de colonização de dados para se tornar um espaço de diálogo respeitoso, onde muitos mundos e saberes podem, finalmente, coexistir e florescer.

Agradecimentos

A formulação desta proposta técnica e a consolidação de sua visão ética e conceitual não seriam possíveis sem os diálogos, provocações e insights preciosos de parceiros fundamentais. Registro meu profundo agradecimento à Viviane Fonseca, do Jardim Botânico do Rio de Janeiro (JBRJ); ao Lucas Zelesco, da Fundação Nacional dos Povos Indígenas (FUNAI); e aos membros do Comitê Gestor Useflora, cuja dedicação à salvaguarda da sociobiodiversidade e ao respeito às comunidades tradicionais inspirou cada linha de código e de arquitetura deste projeto.

Referências

Conheça os repositórios oficiais e acompanhe o desenvolvimento das ferramentas que compõem este ecossistema federado:

BioCultDB (antigo etnoDB): Banco de dados de conhecimento tradicional (Fontes Secundárias)
BioCultPapers (antigo etnoPapers): Ferramenta de extração automatizada de metadados de artigos em PDF usando inteligência artificial.
BioCultRelatos (antigo etnoRelatos): Plataforma para aquisição e registro de dados de fontes primárias junto às comunidades.
BioCultTermos (antigo etnoTermos): Infraestrutura de gestão terminológica e de tesauros baseada no padrão SKOS-XL.
Pluriverso: Middleware de federação, índice integrado e mapeamento semântico da rede de conhecimentos.