Estes dias assisti um vídeo sobre novas técnicas de restauração de obras de arte. Me interessei pelo vídeo não só porque envolve novas tecnologias, como Inteligência Artificial, mas também porque uma de minhas irmãs tem cursos de especialização em restauração de obras de arte e, em conversas sobre, achei o tema interessante.
Por conta do contexto que estou vivenciando no momento, este vídeo despertou uma analogia que gostaria de compartilhar com vocês: conjuntos de dados são como obras de arte e alguns precisam ser restaurados!
Permita-se oito minutos para assistir ao vídeo, que vai ajudar na discussão sobre a analogia.
Vamos a algumas relações bem explícitas:
- [01:20] – here’s a lot of art out there that is in such damaged condition that there is no source of funds that will reasonably cover its restoration because conservation takes a very long time…
- Da mesma forma, existem muitos conjuntos de dados com problemas de qualidade (damaged) e a limpeza destes conjuntos de dados (restoration) leva muito tempo (com custo muito alto)!
- [03:15] – the main challenges involved in conserving paintings span understanding of what the damages are where they stemmed from and the more complicated and nuanced question of which of those damages actually need to be restored so in a lot of cases a painting might have very complex forms of damage and it’s not always obvious that all of those need to be corrected in many cases they should not be…
- Processos de limpeza de conjuntos de dados precisam entender o contexto em que estes conjuntos de dados foram gerados, procurar classificar os problemas encontrados (dimensões de qualidade), entender onde e como estes problemas foram gerados e, em função dos objetivos do conjunto de dados, ter a sensibilidade de quais problemas precisam ser realmente sanados.
Achei muito interessante saber que alguns quadros foram pintados antes da invenção da luz elétrica (o contexto!) e, por conta disso, deveriam ser adequadamente apreciados somente sob a luz natural ou de velas!
Passei alguns anos da minha vida profissional dedicado a estudar conceitos e aspectos de qualidade em bancos de dados sobre biodiversidade (ver aqui) e hoje percebo que existe uma forte relação entre problemas de qualidade de conteúdo (dados em si) e problemas na estrutura que foi definida para armazenar estes dados.
Sim, temos os “vetores” clássicos que geram problemas de qualidade em bancos de dados, como entrada de dados inadequada, má gestão e governança de dados, problemas de integração e migração de dados, envelhecimento e obsolescência dos dados e falhas tecnológicas e de infraestrutura. Porém, ter, desde o início, um modelo de dados adequado vai minimizar significativamente os eventuais problemas de qualidade dos dados.
Mas, voltemos ao foco deste artigo que é a “restauração”.
Hoje também percebo que, da mesma forma que é necessária certa competência para “pensar” um banco de dados – sua estrutura e arquitetura – é fundamental também certa competência para “restaurá-los”.
Usando a mesma analogia, temos o caso icônico da “restauração” feita em 2012 de um Afresco pintado em 1930, por Elías García Martinez, em uma igreja em Borja, Espanha.

Creio ser desnecessário salientar que boas intenções, dedicação e iniciativa não são suficientes para melhorar a qualidade de um conjunto de dados. Como falei acima, muitas vezes sem uma mudança estrutural, ou mesmo “arquitetural”, tentar melhorar a qualidade de um conjunto de dados equivale a “enxugar gelo”…
De qualquer forma, mudanças culturais, definição de papéis e atribuição de responsabilidades (governança!), capacitação e uma estratégia e planejamento realista são mais que desejados, são requeridos em um projeto de “restauração” de um conjunto de dados.
Comentários e críticas são muito bem-vindas ai em baixo!
Excelente analogia, Dalcin!
Valeu Bruno!
Great text!
Miss you my dear friend.
Thanks!