Dicas sobre Data Lake

É indiscutível o valor potencial dos dados em grande escala, e grandes também são os desafios envolvendo aquisição e governança e gestão estratégica do negocio voltada a tomada de decisão.

Com a rapidez que surgem novos dados, a tempestividade de disponibilização é um fator de extrema relevância.

Adotar metodologias mais flexíveis, possibilitar o autoatendimento dos usuários, e priorizar as etapas de controle que agreguem valor para o consumo, evita desperdícios de tempo e burocratização desnecessárias.

Ter um ambiente Data Lake, controlado e governando para fins de análise ou exploração traz benefícios tanto para TI quanto para os heavy user de dados.

Abaixo cito algumas dicas para auxiliar no desafio de construir um Data Lake governado, de ingestão ágil e que atendenda aos padrões de Governança e Segurança.

1# Centralização do atendimento

Separar projetos de TI dos projetos que são apenas demandas de dados e possibilitar o compartilhamento destes pedidos através de um único cadastro, traz mais sinergia entre projetos e possibilita a rápida identificação de possíveis duplicidades nos pedidos de novos dados ou necessidade de congruência entre eles. Vale ressaltar também a importância de se criar uma matriz de priorização seja por iniciativas de impacto no cliente, demanda legal, etc.

2# Capacidade de ingestão Ágil

Para atendimento tempestivo, a ingestão deve ser ágil. Para isso, os próprios consumidores/solicitantes devem ser capacitados a realizar esta atividade em ambiente controlado e apartado.

Para facilitar o processo de adoção, uma interface de ingestão amigável e que cumpra as etapas relevantes de segurança e confiabilidade na implantação devem ser priorizadas.

Para fins de governança, os dados podem ser organizados em camadas físicas distintas e/ou conceituais, de acordo com as visões de consumo. Essa iniciativa fornece aos usuários a possibilidade de “self service” de forma controlada. Com monitoramento da maturidade de consumo, os dados podem então serem promovidos para uma camada de compartilhamento produtivo.

Atenção nos controles: para que tudo funcione de forma orgânica não se pode esquecer das políticas de expurgos. Para que a democratização seja efetiva, será necessário ter bons metadados, qualidade de dados, regras de acesso e monitoração do uso.

3# Fail Fast

Para os casos de estudos rápidos e experimentação de novos dados, o principal objetivo é trazer resultados em curto espaço de tempo. Para isso o conceito de fail-fast (falha rápida) torna-se extremamente adequado.

Ao utilizarmos tal conceito, mostramos disposição para experimentar no processo, aprender rapidamente com os resultados e fazer os ajustes necessários para alcançar uma melhor experiência do cliente.

Seu uso porém, não implica em falta de compromisso com o objetivo final de governança da mesma forma que não minimiza o valor de um bom planejamento. Ele permite apenas que algumas etapas do processo como detalhamento de documentação elevado e monitoramento da qualidade possam ser postergados.

4# Experiência do usuário

Um ambiente compartilhado deve ser criado pensando estritamente no consumo:

  • Os nomes dos objetos devem ser amigáveis ao consumidor;
  • A interface de consulta deve ser performática;
  • A qualidade dos dados deve estar de acordo com a necessidade de negócio;
  • A documentação deve ser confiável, atualizada e de completude elevada, passando assim, credibilidade para quem consome ou compartilha a informação.

E você, concorda com essa visão?

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.