Artigo Data Warehouse

Neste artigo iremos abordar um pouco sobre , que consiste num sistema que através de diferentes transações e processos, faz uma copia das informações registradas nos diversos sistema espalhados na organização através da mineração de dados, organizando-os em diferentes níveis ou camadas de dados para facilitar as consultas, relatórios e analises através de ferramentas OLAP.

 

Introdução

O grande crescimento do ambiente de negócios, médias e grandes empresas armazenam também um alto volume de informações, onde que juntamente com a tecnologia da informação, a correta extração destas informações é um fator chave para se conseguir destaque no mercado cada vez mais competitivo.

Este manancial de informação, quando aproveitado de forma eficaz, desempenha um papel fundamental no sucesso das organizações, afinal vivemos numa sociedade tecnológica onde a informação acumulada é muito valiosa, sendo assim a informação “tratamento de dados”, irá determinar a eficiência da empresa e quais as melhores decisões devem ser tomadas.

Data Warehouse

Segundo Date (2004) “Data Warehouse (que no português significa, literalmente armazém de dados) é um deposito de dados orientado por assunto, integrado, não volátil, variável com o tempo, para apoiar as decisões gerenciais”.

Orientado por assunto

Refere-se aos sistemas transacionais organizados em uma determinada aplicação de uma empresa. A orientação por assunto é uma característica importante, pois toda a modelagem do Data Warehouse é orientada a partir dos principais assuntos da empresa. Por exemplo uma empresa de arrecadação de impostos, onde os principais assuntos são os cadastros de contribuintes, impostos a recolher.

Últimas atualizações sobre Banco de dados 😉

  • Mestre Detalhe em detalhes:
    Você provavelmente já se deparou com um formulário do tipo mestre detalhe enquanto fazia compras, selecionava suas matérias do semestre, etc. Mas você conhece todas as pequenas armadilhas que a programação dessa rotina esconde? Descubra neste DevCast
  • OO, Herança e Banco de Dados:
    Após identificar quais são as principais funcionalidades do sistema, por onde você começa a codificá-lo? Vamos bater um papo sobre isso?
  • Processamento de consultas no SQL Server:
    Este artigo apresenta como funciona o processamento de uma consulta no SQL Server, identificando os principais mecanismos e componentes desse sistema.

Integrado

Essa é a característica mais importante do Data Warehouse, pois trata da integração, que é feita do ambiente operacional para as aplicações do Data Warehouse. A integração é realizada visando padronizar os dados dos diversos sistemas em uma única representação, para serem transferidos para a base de dados única do Data Warehouse.

Não volátil

Nos sistemas transacionais os dados sofrem diversas alterações como, por exemplo, a inclusão, alteração e exclusão de dados. No ambiente do Data Warehouse os dados, antes de serem carregados, são filtrados e limpos “gerando informação”. Após esta etapa esses dados sofrem somente operações de consulta e exclusão, sem que possam ser alterados, e esta característica representa a não-volatilidade.

Variável com o tempo

A variação em relação ao tempo consiste na manutenção de um histórico de dados em relação ao período de tempo maior que dos sistemas comuns, isto significa que as técnicas de mineração de dados não são aplicadas em tempo real, de forma a não comprometer o desempenho dos bancos transacionais OLTP. Ao analisarmos um dado de um Data Warehouse, o mesmo sempre estará relacionado a um período determinado de tempo, pois terá uma chave de tempo que irá indicar o dia no qual esses dados foram extraídos.

O Data Warehouse consiste a junção de diversas tecnologias que permitem fazer consulta no banco de dados, para posterior análise das informações. Devido ao ambiente projetado, o Data Warehouse tem uma única fonte de dados, que facilita muito o trabalho do analista, porque os dados que lá existem estão tratados e não há redundância das informações.

Elementos básicos do Data Warehouse

Abaixo podemos visualizar os elementos básicos que compõem as arquiteturas de um Data Warehouse.

Elementos Data Warehouse
Figura 1. Elementos Data Warehouse.

Fonte de dados

Sistemas transacionais da empresa, pode ser composto por diversas formas de dados.

Data Stage

Composta por uma área de armazenagem e um conjunto de processos. Sua função é extrair os dados dos sistemas transacionais, proceder a limpeza, a transformação, combinação, de duplicação e preparação dos dados para o uso no Data Warehouse. Estes dados não são apresentados ao usuário final.

Servidor de apresentação

Ambiente onde os dados são organizados e armazenados para consulta direta pelos usuários finais. Normalmente os dados estão disponíveis nestes servidores em bancos de dados relacionais, mas também podem estar armazenados em tecnologia OLAP (OnLine Analytical Processing ) já que muitos data marts trabalham apenas com dados no modelo dimensional.

Data Mart

Subconjunto lógico do Data Warehouse, geralmente divididos por departamento ou visões necessárias para os usuários.

Data Mining

Também conhecido como mineração de dados, o Data Mining trabalha em grandes massas de dados onde existem muitas correlações entre os dados que não são perceptíveis facilmente. Os Data Warehouses são constituídos, normalmente, de imensa quantidade de dados, há necessidade de uma ferramenta para varrer automaticamente o Data Warehouse a fim de pesquisar tendências e padrões através de regras pré-definidas que dificilmente seriam encontrados em uma pesquisa comum.

Ferramentas de acesso aos dados

Maneira em que os dados são extraídos e integrados com cada processo distinto do Data Warehouse. As funções para a transformação dos dados são:

  • Extração: retirada dos dados dos sistemas transacionais e armazenagem na área de data stage;
  • Carga de dimensões processadas: realimentação do processo para garantir a representação correta dos dados em novo formato.
  • Carga, Replicação e Recuperação: quando pronto, o dado é carregado no data mart correspondente e são criados (ou atualizados) índices para melhorar a performance das consulta.
  • Alimentação: apresenta as visões do data mart de acordo com as necessidades dos usuários.
  • Carga dos resultados dos modelos: serve para realimentar possíveis modificações no data mart, caso este não esteja adequado a aplicação que o utiliza.

Arquitetura do Data Warehouse

Arquitetura do Data Warehouse pode variar conforme o tipo de assunto abordado, isso ocorre devido as necessidades que variam de empresa para empresa.

Arquitetura Genérica

A arquitetura genérica compreende a camada dos dados operacionais que serão acessados pela camada de acesso a dados. As camadas de gerenciamento de processos, transporte e data warehouse são responsáveis por distribuir os dados e estão no centro da arquitetura. A camada de acesso à informação possibilita a extração das informações do Data Warehouse utilizando um conjunto de ferramentas.

Arquitetura genérica Data Warehouse
Figura 2. Arquitetura genérica Data Warehouse.

Arquitetura de Duas Camadas

A arquitetura de duas camadas utiliza um servidor, juntamente com aplicações front end, que são ferramentas que realizam operações sobre os dados consultados e os transformam em informações úteis para os usuários, os componentes back end são ferramentas responsáveis pela extração, limpeza e cargas dos dados, mais conhecidas como ETL também são utilizadas neste tipo de arquitetura.

Arquitetura duas camadas Data Warehouse
Figura 3. Arquitetura duas camadas Data Warehouse.

Arquitetura de Três Camadas

A arquitetura de três camadas suporta vários usuários e serviços devido a sua flexibilidade, as informações ficam armazenadas em várias camadas. Na primeira camada estão as interfaces que trabalham com o usuário, onde geralmente são gráficas. Na segunda camada estão os servidores de banco de dados e aplicações e, por isso, têm a necessidade de ter um acesso eficiente e veloz aos dados compartilhados, e na última ficam armazenadas as fontes de dados. A arquitetura de três camadas é a mais utilizada pelos analistas.

Arquitetura três camadas Data Warehouse
Figura 4. Arquitetura três camadas Data Warehouse.

Conclusão

Vimos neste míni artigo um pouco sobre importância de um Data Warehouse para as empresas, suas definição, características, arquitetura e elementos básicos usados na sua construção.

Para os que acharam interessante o assunto, indico uma leitura um pouco mais aprofundado e um estudo sobre a nova geração o Data Warehouse 2.0, que segue a mesma lógica aplicada acima, porém é constituído de uma arquitetura mais evoluída que trata o ciclo de vida das informações que foram extraídas.

Referências

DATE, C. J. Introdução a Sistemas de Bancos de Dados. 8ª Ed., Rio de Janeiro: Campus, 2004.

INMON, W. H. Building the Data Warehouse, Fourth Edition. Indianápolis EUA: Wiley Publishing, 2005.

Links Úteis

  • Introdução à Computação Serverless com Azure e .NET:
    Esse artigo é útil para quem deseja adentrar no mundo da computação serverless. Conheça uma das mais novas e promissoras áreas da computação que visa prover a execução de rotinas de software rápidas e baratas na nuvem, alocando o mínimo de recursos possíveis se, e somente se, requisições forem solicitadas ao servidor.
  • Um Bate-papo sobre Angular:
    Angular é um framework para criação de aplicações cliente baseadas em HTML, que serão executadas no navegador ou em dispositivos móveis, recebendo dados através da internet. Ficou curioso? Então saiba mais sobre o Angular neste DevCast.
  • Segurança de web services em Java com controle de acesso:
    Neste curso vamos aprender a programar um mecanismo de autorização para controle de acesso às diferentes funcionalidades oferecidas por uma Web API RESTful, configurando para três tipos de usuário (cliente, funcionário e administrador) diferentes tipos de permissão.

Saiba mais sobre Banco de dados 😉

  • Guias de Banco de Dados:
    Aqui você encontra o Guia de estudo ideal para aprimorar seus conhecimentos nos principais Banco de Dados do mercado. Escolha o seu e bons estudos!
  • Banco de Dados para Programadores:
    Todo programador deveria entender de banco de dados para ser um profissional mais completo, mas isso não é tarefa simples. Nesse guia você irá aprofundar seus conhecimentos em SQL, modelagem, e os principais SGBDs do mercado. Vamos evoluir!

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.