Ferramentas de Big Data

SPARK Ferramenta de processamento de dados que roda até 100 vezes mais rápido que o Map Reduce. Como o Map reduce não processa bem todos os algoritmos, o Spark atua sendo mais abrangente na quest ão de diferentes tipos de processamento. Também executa o código em paralelo. Sua principal diferença em relação ao Map Reduce é o fato deste persistir em disco. O Spark trabalha em memória, faz encadeamento de funções e só apresenta o resultado no fim do processamento. O driver, aplicação p rincipal do Spark, faz alocação maquinas no cluster para processamento de funções Pode trabalhar tanto com o paradigma SQL quanto o NOSQL.

MAP REDUCE É o sistema analítico do Hadoop desenvolvido para operar com grandes volumes de dados. Segue o principio da localidade em que o código é enviado para o local onde os dados estão para ser processado. O processamento analítico é d istribuído em vários servidores, dos quais se deseja tirar informação. Através de um processamento paralelo/distribuído, os dados são divididos em partições ou ficheiros através da função Split em p . Nesse processo, o Map reduce monta a separação dos dados artições, mapeia as atividades em cada local e duplica em ambientes e depois faz as reduções. Durante o mapeamento através do processamento em cada nó da partição ou cluster, são formados pares valor chave enviados ao redutor, agrupando pares com as mesma características. Basicamente são três fazes, a saber: Map, onde todos os dados são reunidos; Shuffle, onde os dados são reunidos e organizados e Reduce, onde os dados são associados e correlacionados. Nem todos os algoritmos se encaixam nesse modelo.

HBASE É um banco de dados Nosql que processa grandes volumes de dados de maneira e em tempo real. Trabalha com o conceito chave rápida valor, em que cada dado é associado a outro trazendo uma característica similar ao modelo relacional com sua organização se dando em linhas, colunas, tabelas e famílias de colunas. No entanto não há a obrigatoriedade de esquemas, como ocorre no modelo SQL, portanto pode haver linhas sem determinadas colunas e viceversa. Nesse modelo, diferentemente do SQL, os dados não são alterados, apenas somados, podendo haver varias versões sobre determinada chav e ou valor.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.