Pentaho Data Integration (Spoon): Um guia para novatos

Este artigo destina-se a novos usuários do Pentaho Data Integration e queiram saber como instalar as ferramentas e começar, eu conheci o Pentaho a partir da procura de ferramentas capaz de substituir a suíte de BI da Microsoft, então eu também apontarei questões que seriam novas para pessoas com um  background Microsoft. Quando falamos sobre Leia mais… »

Big Data: entenda as principais vantagens de utilizar na sua empresa

O estudo “A universe of opportunities and challenges”, feito pela EMC, estima que, até 2020, o universo virtual alcance 40 trilhões de gigabytes. É um volume gigantesco de informação que circulará na Internet, gerando um novo desafio para as empresas: como processar a quantidade crescente de conteúdos produzidos pelos clientespara mapear comportamentos, tendências e oportunidades de Leia mais… »

Ferramentas do Mundo Big Data

Apache Hadoop Em se tratando de Big Data, sabemos que é gigantesco o volume de dados gerados, podendo chegar a inúmeros gigabytes. Por isso, é importante poder contar com uma ferramenta dedicada ao armazenamento desses dados. O Apache Hadoop é uma das principais ferramentas de Big Data utilizadas no mercado. Esse famoso software é capaz de aumentar Leia mais… »

Analise de sentimento flume no twitter-Exibição no Hive

Analise de sentimento flume no twitter-Exibição no Hive Este é um tutorial explicando a construção do script pyspark Para a análise foi utilizado o spark, uma tecnologia de computação distribuída em cluster, extremamente rápida. existem muitos métodos e abordagens diferentes para a análise de sentimentos. para simplificar, nós utilizaremos uma abordagem mais básica. No entanto, Leia mais… »

Dicas sobre Data Lake

É indiscutível o valor potencial dos dados em grande escala, e grandes também são os desafios envolvendo aquisição e governança e gestão estratégica do negocio voltada a tomada de decisão. Com a rapidez que surgem novos dados, a tempestividade de disponibilização é um fator de extrema relevância. Adotar metodologias mais flexíveis, possibilitar o autoatendimento dos usuários, e Leia mais… »

Ciência de Dados e Engenharia de Dados

Então este é o mundo da tecnologia. E todo esse mundo agora está quase confiando na tecnologia. E sim! isso é verdade. Nosso negócio, nossa educação, nossa vida técnica, tudo depende da tecnologia e da ciência, é claro. E quando há tecnologia e ciência, também aparece uma palavra atrás da qual é DATA. Os dados estão em todo lugar. Estamos usando dados Leia mais… »

GRÁFICOS EM R

Vamos agora apresentar alguns gráficos simples de se fazer no R. Para não deixarmos os gráficos tão deselegantes a ponto de serem inúteis, vamos incluir algumas características em cada um. A base de dados utilizada será novamente a german_credit_2, que dessa vez será chamada de dados_credito, para não causar confusão. 1. Gráfico de Dispersão: Um dos mais fáceis de se Leia mais… »

CARREGANDO / IMPORTANDO SEUS DADOS NO R

A função read.table()  do R serve para importar arquivos de diversos formatos. O print abaixo apresenta a descrição do que a função é capaz de fazer e algumas variações dela, como o read.csv() – muito embora a própria read.table() seja capaz de ler arquivos csv. Não tem muito segredo para ler arquivos. Vejamos um exemplo de como ler um arquivo utilizando as Leia mais… »

Lista rápida de pacotes R úteis

Pacotes Recomendados Muitas funções R úteis vêm em pacotes, bibliotecas livres de código escritas pela comunidade de usuários ativos de R. Para instalar um pacote R, abra uma sessão R e digite na linha de comando install.packages(“<the package’s name>”) R irá baixar o pacote do CRAN, então você precisa estar conectado à internet. Uma vez que você Leia mais… »