O que é data mesh e como fazer uma boa mescla de dados?
Dash mesh, do inglês, é a malha de dados. Quando trabalhamos com pesquisa baseada em dados ou realizamos relatórios que usam várias fontes de dados, é comum fazer uma avaliação de como esses dados são coletados.
Em live do IBPAD junto ao time da plataforma vtracker, citei que trabalhar com pesquisa no dia a dia e com várias fontes de dados é como um cardápio. Precisamos escolher bem quais são esses dados para compor uma boa refeição que saímos saciados. As opções são diversas e nem todos os dados garantem nossas respostas ao problema de negócio (veja aqui).
Primeiro, vamos entender mais a definição de data mesh
É um conceito emprestado, e veio de “um design de autoatendimento orientado a domínio e emprestando a teoria de Eric Evans de design orientado a domínio e a teoria de topologias de equipe de Manuel Pais e Matthew Skelton” (Wikipedia).
Como garantir uma boa mescla em dados
Comece com perguntas!
Perguntas úteis para um bom data mesh
Como descobrir os dados, como identificá-los, como tratá-los? Algumas perguntas podem ajudar nessa mescla da malha de dados.
Aqui traduzo algumas questões relevantes que surgem, quando temos várias fontes de dados (fonte: case data mesh da Intuit Data Lab):
Descoberta de dados
- Onde posso encontrar dados sobre uma coisa específica (cliente, empresa, etc)?
- Onde posso encontrar os dados provenientes de um determinado produto ou serviço?
Compreensibilidade dos dados
- Quem pode aprovar meu acesso para que eu possa ver amostras dos dados?
- Qual é o esquema dos dados?
- Qual é o significado comercial e o contexto dos dados?
- Esses dados estão relacionados a outros conceitos? É juntável a outros dados? Qual é o significado do relacionamento?
Confiança de dados
- Qual sistema produz esses dados e com que latência?
- Que outros sistemas usam esses dados?
- Qual é a qualidade desses dados?
- Qual equipe apoia esses dados se eles quebrarem?
Consumo de dados
- Como esta tabela/tópico é particionada?
- Quem pode aprovar meu sistema de produção para acessá-lo?
- Serei alertado se o esquema mudar?
Publicação de dados
- Como descrevo meus dados para que outras pessoas entendam o que significam e como usá-los?
- Onde hospedo meus dados para que outros sistemas possam acessá-los?
- Os sistemas de dados são complicados; como posso construir e operar um?
- Quais são minhas responsabilidades operacionais quando meus processos/dados estiverem em produção?
- Como posso cumprir meus requisitos de conformidade para processamento, armazenamento e publicação de dados?
- Estou duplicando processamento/dados que já existem?
Em outras palavras
A solução não tem fórmula mágica. É guiada pelas respostas deste roteiro, além de outras perguntas que podem surgir, dependendo da plataforma que você possui e as condições do seu dia-a-dia como analista de dados ou de pesquisa.