Anatomia de uma ocorrência

Era dois de março de 2004 e o verão estava chegando ao fim. A expedição ao Parque Estadual do Desengano, no Rio de Janeiro, formada por oito pesquisadores, avistou um afloramento rochoso à direita da estrada que leva a entrada do Parque Estadual do Desengano à Morumbeca. Resolveram parar. A Dra. Rafaela Forzza percebeu uma população de indivíduos da família Bromeliaceae – família botânica de seu interesse – e resolveu coletar dez exemplares para estudos posteriores na instituição, sob o número 2843, em sua caderneta de coleta. Ela anota a localização, tirada do equipamento de GPS: 21º 52.54′ S e 41º 56.36’W; e anota a altitude oferecida também pelo GPS: 683 m.s.m.

Como de costume, a descrição do material também é anotada em sua caderneta de campo:

Erva 3m alt., folhas verde-claras com bainha castanha, escapo rosado, brácteas do escapo rosadas na base, verdes no ápice, primarias rosa, raque verde clara, bráctea floral e sépalas amarelas, pétals alvas passando a amarelas, androceu e gineceu alvos, aroma adocicado, suave, 9 ex (exemplares).

De volta ao Instituto de Pesquisas Jardim Botânico do Rio de Janeiro (JBRJ) um dos nove exemplares foi tombado junto ao Herbário Dimitri Sucre, sob o no. de tombo RB 402256 (“otherCatalogNumbers”) e, seguindo a boas práticas, os exemplares restantes foram compartilhados com os herbários SP, SPF, MO, K (2 exemplares), MBM, NY, CEPEC e CTES, conforme descrito na etiqueta anexada ao material do JBRJ. Nestas instituições, as exsicatas foram acolhidas e catalogadas em seus sistemas de registro sob os seguintes números (ou “catalogNumber”, segundo o padrão Darwin Core):

HerbárioSiglaNúmero de Catálogo
Herbário Maria Eneyda P. K. FidalgoSP371976 (SP371976)
Departamento de Botânica – Universidade de São PauloSPFNão Localizada
Missouri Botanical GardenMOMO1527603
Kew GardensKK000976359
K000976360
Prefeitura Municipal de Curitiba – Museu Botânico MunicipalMBMMBM297705
New York Botanical GardenNYNY01018075
“Andre Mauricio Vieira de Carvalho” – CEPEC – Centro de Pesquisas do CacauCEPECCEPEC00101880
Instituto de Botánica del Nordeste – ArgentinaCTESNão Localizada

Com duas amostras não localizadas – CTES e SPF, estas sete amostras se somam a amostra catalogada no herbário do Jardim Botânico do Rio de Janeiro, sob o número RB00177367 (“catalogNumber“), totalizando 8 amostras do que é considerado “uma mesma ocorrência”. Este é o cenário da relação do evento da coleta “Forzza 2843” com suas amostras:

Agora começa a ficar “divertido”! Perceba que o conceito de “ocorrência”, segundo o padrão Darwin Core (DwC) é:

"An existence of a dwc:Organism at a particular place at a particular time."

E, para identificar este fato único, no tempo e no espaço, ainda segundo o padrão DwC, seu identificador é o termo “ocurrenceID”, que deveria ser um identificador global único representando aquele fato no tempo e no espaço. Entretanto, na prática, não é o que ocorre. Como cita (NELSON; SWEENEY; GILBERT, 2018):

"…Depending on the properties being invoked, a herbarium specimen is at once an Occurrence and a materialSample, as each of these has overlapping properties. In many cases, an Occurrence could be considered equivalent to a herbarium specimen from a DwC per- spective; however, in the case of duplicates from the same organism, technically all of the specimens represent the same Occurrence and thus should all have the same occurrenceID…"

Aqui deixamos claro que, tecnicamente, o correto seria que estas amostras da mesma ocorrência compartilhassem o mesmo “occurrenceID”, guardando sua individualidade nos seus “catalogNumber”. Mas não é o que ocorre:

catalogNumberocurrenceID
SP371976BRA:IBT:SP:371976
MO15276033420129
K0009763592019573
K0009763602146332
MBM297705urn:catalog:MBM:297705
NY010180753099084
CEPEC001018802846238
RB00177367urn:catalog:JBRJ:RB:177367

Entretanto, para os sistemas agregadores de dados e consumidores (descuidados), estes dados acabam por representar, equivocadamente, oito diferentes ocorrências, inflacionando perigosamente as análises baseadas nestes dados.

Mas fica ainda melhor! Ainda temos os escopos taxonômico, espacial e temporal para considerar. Lembram que o conceito de ocorrência é “An existence of a dwc:Organism at a particular place at a particular time”? Vamos ao escopo “time”, com seus termos de representação no DwC:

catalogNumbereventDateverbatimEventDateyearmonthday
SP371976  20040302
MO15276032/3/2004 200432
K0009763593/2/20042004-02-03200423
K0009763602/3/20042004-03-02200432
MBM2977052004-3-2 200432
NY010180752/3/20042004-03-02200432
CEPEC001018802/4/19922/4/1992199242
RB001773672004-03-02 20040302

Pontos de atenção:

  • Considerando que o padrão DwC recomenta que o “eventDate” seja “…to use a date that conforms to ISO 8601-1:2019”, o registro do JBRJ é o único que atende a recomendação,
  • Para “month” e “day”, não é recomendado o uso do prefixo “0”, como em SP e RB,
  • K parece ter interpretado o “dia” como “mês”, e o “mês” como “dia”, em K000976359,
  • CEPEC só concorda com o “dia” da coleta.

Vamos agora considerar o conceito do “espaço”:

catalogNumberdecimalLatitudedecimalLongitudeverbatimLatitudeverbatimLongitude
SP371976-21.8816670000000002-41.9433330000000026  
MO1527603-218.83305555555555-419.3330555555556  
K000976359-21.881666666666668-41.94333333333333  
K000976360-21.865000000000002-41.94333333333333  
MBM297705    
NY01018075-21.8755555555555574-41.9394444444444403  
CEPEC00101880    
RB00177367-21.8816667-41.943333321º52´54´´41º56´36´´W

Pontos de destaque:

  • Chama a atenção as diferentes “precisões”, representadas em casas decimais, para a mesma ocorrência,
  • Acredito que a conversão da coordenada expressa como “verbatim”, presente na etiqueta de coleta anexada às duplicatas, em diferentes sistemas e “DATUM”, possa ter causado a inconsistência,
  • CEPEC e MBM não consideram coordenadas geográficas em seus registros, ou não exportam,
  • MO parece ter se equivocado no valor inteiro, pulando uma casa para o ponto decimal.

Um outro atributo de uma ocorrência é o “coletor”, visto que o conjunto “coletor” (dwc:recordedBy)+ “numero de Coleta” (dwc:recordNumber) são identificadores muito utilizados para uma ocorrência. Entretanto, da mesma forma, eles nem sempre são consistentes entre as amostras:

catalogNumberrecordedBy
SP371976Forzza, RC; et al.
MO1527603Rafaela C. Forzza, Leandro C. S. Assis, Jomar G. Jardim, L.R. Lima;E. Lucas
K000976359R.C. Forzza;J.G. Jardim,L.R. Lima,D. Zappi,L.C.S. Assis,E. Lucas,S. Edwards,B.r. Silva
K000976360R.C. Forzza;J.G. Jardim,B.R. Silva,L.R. Lima,D. Zappi,L.C.S. Assis,E. Lucas,S. Edwards
MBM297705Forzza, RC; et al.
NY01018075R. C. Forzza
CEPEC00101880R. C. Forzza
RB00177367R.C. Forzza; et al.

Apenas NY e CEPEC concordam com a representação de quem foi o coletor das amostas.

Por fim, vamos considerar o escopo taxonômico:

catalogNumberscientificName
SP371976Alcantarea heloisae
MO1527603Alcantarea odorata (Leme) J.R. Grant
K000976359Alcantarea heloisae J.R.Grant
K000976360Alcantarea odorata (Leme) J.R.Grant
MBM297705Alcantarea odorata (Leme) J.R.Grant
NY01018075Alcantarea odorata (Leme) J.R.Grant
CEPEC00101880Alcantarea odorata
RB00177367Alcantarea heloisae J.R.Grant

Duas espécies válidas (nomes aceitos) foram consideradas nas diferentes instituições.

Em resumo, considerando apenas um sub-conjunto de atributos de uma ocorrência, este é o cenário:

Olhando apenas para o conjunto de dados associados às amostras. Podemos considerar que são “coisas diferentes”. Infelizmente, sem o contexto, muitas análises e sínteses de conhecimento acabam por acreditar nisso.

Considerações

Os dados de ocorrência publicados em repositórios temáticos, como o Integrated Publishing Toolkit (IPT), e agregados pelo GBIF e SiBBr, por exemplo, são notoriamente “sujos” (RIBEIRO et al., 2022; DOREY et al., 2023). Porém, Infelizmente, é neste cenário de absoluta inconsistência que algumas análises se apoiam. Mesmos grandes mapas “plotando” ocorrências, em “sites” de instituições agregadoras como GBIF e SiBBr acabam por mostrar uma imagem absolutamente impactante de “ocorrências”. Porém, absurdamente inflacionadas, e que estão longe de representar a realidade do fato biológico.

Para piorar um cenário que já é ruim, algumas coleções publicam seus dados em mais de um “repositório IPT”, o que acaba por promover uma redundância de registros ainda maior.

Além disto, trabalhos, teses, dissertações, e mesmo avaliações do status de conservação, em sua avassaladora maioria, não trazem o detalhamento das etapas de tratamento, limpeza e harmonização dos dados de ocorrência considerados.

Carecemos de padrões, protocolos e, em última instância, governança sobre estes dados, em escalas regional, nacional e mesmo global. O trabalho e re-trabalho de verificação, validação e harmonização deste conjunto gigantesco de dados de “ocorrências” é enorme e, em minha modesta opinião, tem atrasado a produção de informação relevante, quando não acaba produzindo informação com um nível de incerteza inaceitável para tomada de decisão e formulação de políticas públicas.

Creio ainda que os dados de ocorrências em coleções científicas, o qual são a base da pirâmide do conhecimento da biodiversidade, são, de certa forma, negligenciados como objeto primário das análises. Parece que o conjunto de dados publicados que os representam no mundo virtual são priorizados na melhoria da qualidade, com ferramentas e algoritmos informatizados, enquanto o objeto físico na coleção em si permanece, por diversas razões, com baixa qualidade em seus “metadados” associados. É como dar mais importância à etiqueta da embalagem do que ao conteúdo do pacote!

Gerir uma coleção física, como as exsicatas em um herbário, por exemplo, requer recursos humanos, financeiros e materiais significativos. Gerir um conjunto de dados requer apenas um computador ligado na tomada e na internet. Ambos os acervos – físico e virtual – necessitam de recursos humanos com diferentes competências em sua gestão. Entretanto, o acervo virtual é, ou deveria ser, uma representação fiel do acervo físico. Aprendi com meus mestres-jedi que “bancos de dados nada mais são que representações do mundo real”. Quando conjuntos de dados são transformados – limpos – para uma análise eles deixam de representar o acervo físico. Se tornam uma abstração criada pelo analista e seus algoritmos, que existe de forma efêmera e particular àquela análise, perdendo a relação de identidade com o acervo físico, ou seja, com o fato biológico no tempo e espaço.

Penso que estamos gastando muito tempo e recursos arrumando, agregando e publicando dados, e dedicando pouco tempo e recursos para qualificar, organizar e preservar adequadamente as coleções físicas.

Nota Final

Estas considerações foram feitas – apenas e exclusivamente – com base dos dados ofertados pelos seguintes IPTs, nas seguintes versões e datas:

Número de CatálogoURL do recurso no IPT correspondenteversãodata
Número de CatálogoURL do recurso no IPT correspondenteversãodata
SP371976http://ipt1.cria.org.br/ipt/resource?r=sp_fanerogamasv1.1052024-03-10
MO1527603https://ipt.jbrj.gov.br/reflora/resource?r=mohv1.2252024-01-01
K000976359https://ipt.jbrj.gov.br/reflora/resource?r=k_reflorav1.2272024-01-01
K000976360https://ipt.jbrj.gov.br/reflora/resource?r=k_reflorav1.2272024-01-01
MBM297705https://ipt.jbrj.gov.br/jabot/resource?id=mbmv1.102024-04-01
NY01018075https://ipt.jbrj.gov.br/reflora/resource?r=nyhv1.2242023-11-22
CEPEC00101880https://ipt.jbrj.gov.br/reflora/resource?r=cepec_herbariumv1.2852024-01-01
RB00177367https://ipt.jbrj.gov.br/jbrj/resource?r=jbrj_rbv84.2532024-03-12

Sugestões, críticas e comentários são sempre bem-vindos!

Referências

DOREY, James B.; FISCHER, Erica E.; CHESSHIRE, Paige R.; NAVA-BOLAÑOS, Angela; O’REILLY, Robert L.; BOSSERT, Silas; COLLINS, Shannon M.; LICHTENBERG, Elinor M.; TUCKER, Erika M.; SMITH-PARDO, Allan; FALCON-BRINDIS, Armando; GUEVARA, Diego A.; RIBEIRO, Bruno; DE PEDRO, Diego; PICKERING, John; HUNG, Keng-Lou James; PARYS, Katherine A.; MCCABE, Lindsie M.; ROGAN, Matthew S.; … COBB, Neil S. A globally synthesised and flagged bee occurrence dataset and cleaning workflow. Scientific Data, v. 10, n. 1, p. 747, 2 nov. 2023. https://doi.org/10.1038/s41597-023-02626-w.

NELSON, G.; SWEENEY, P.; GILBERT, E. Use of globally unique identifiers (GUIDs) to link herbarium specimen records to physical specimens. Applications in Plant Sciences, v. 6, n. 2, p. e1027, 2018. https://doi.org/10.1002/aps3.1027.

RIBEIRO, Bruno R.; VELAZCO, Santiago José Elías; GUIDONI‐MARTINS, Karlo; TESSAROLO, Geiziane; JARDIM, Lucas; BACHMAN, Steven P.; LOYOLA, Rafael. bdc : A toolkit for standardizing, integrating and cleaning biodiversity data. Methods in Ecology and Evolution, v. 13, n. 7, p. 1421–1428, jul. 2022. https://doi.org/10.1111/2041-210X.13868.

9 respostas para “Anatomia de uma ocorrência”

  1. Dalcin, seu texto é bem legal. Por esse motivo nos encontramos para conversar sobre alguns pontos. As exsicatas “com vida própria” espalhadas pelo mundo, os pesquisadores que não vão mais a herbário identificar coleções, as avaliações de distribuição geográfica com redundâncias, a falta de atualização de dados nas coleções…são diversos pontos que precisam ser levados em conta na “qualidade dos dados”. É um desafio posto ! As máquinas aí estão…a biodiversidade lá está (ainda) e continuamos mensurando, mas ainda faltando no caso do Brasil a tal “entidade” responsável pela gestão dos dados de Biodiversidade.

  2. Excelente análise, Dalcin. Me preocupa o fato de que muitas das análises realizadas hoje em dia, com ampla abrangência geográfica, e que propõem padrões fitogeográficos amplos, partam de bases de dados com tantas inconsistências.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *