Ferramentas de Big Data

SPARK Ferramenta de processamento de dados que roda até 100 vezes mais rápido que o Map Reduce. Como o Map reduce não processa bem todos os algoritmos, o Spark atua sendo mais abrangente na quest ão de diferentes tipos de processamento. Também executa o código em paralelo. Sua principal diferença em relação ao Map Reduce é o fato deste persistir em disco. O Spark trabalha em memória, faz encadeamento de funções e só apresenta o resultado no fim do processamento. O driver, aplicação p rincipal do Spark, faz alocação maquinas no cluster para processamento de funções Pode trabalhar tanto com o paradigma SQL quanto o NOSQL.

MAP REDUCE É o sistema analítico do Hadoop desenvolvido para operar com grandes volumes de dados. Segue o principio da localidade em que o código é enviado para o local onde os dados estão para ser processado. O processamento analítico é d istribuído em vários servidores, dos quais se deseja tirar informação. Através de um processamento paralelo/distribuído, os dados são divididos em partições ou ficheiros através da função Split em p . Nesse processo, o Map reduce monta a separação dos dados artições, mapeia as atividades em cada local e duplica em ambientes e depois faz as reduções. Durante o mapeamento através do processamento em cada nó da partição ou cluster, são formados pares valor chave enviados ao redutor, agrupando pares com as mesma características. Basicamente são três fazes, a saber: Map, onde todos os dados são reunidos; Shuffle, onde os dados são reunidos e organizados e Reduce, onde os dados são associados e correlacionados. Nem todos os algoritmos se encaixam nesse modelo.

HBASE É um banco de dados Nosql que processa grandes volumes de dados de maneira e em tempo real. Trabalha com o conceito chave rápida valor, em que cada dado é associado a outro trazendo uma característica similar ao modelo relacional com sua organização se dando em linhas, colunas, tabelas e famílias de colunas. No entanto não há a obrigatoriedade de esquemas, como ocorre no modelo SQL, portanto pode haver linhas sem determinadas colunas e viceversa. Nesse modelo, diferentemente do SQL, os dados não são alterados, apenas somados, podendo haver varias versões sobre determinada chav e ou valor.

Citações Interessantes

” As organizações com Big Data têm 70% mais probabilidade de ter projetos de BI orientados principalmente pelos funcionários da empresa, do que pelo grupo de TI.”

ABERDEEN GROUP

“O conjunto de dados gera um registro, o conjunto de registros gera uma informação e o conjunto de informações gera o conhecimento!” 

AUTOR DESCONHECIDO

 

Big Data refere-se a conjuntos de dados, cujo tamanho está além das capacidades da tecnologia de banco de dados atual. É um campo emergente onde a tecnologia inovadora oferece alternativas para resolver os problemas inerentes que aparecem quando se trabalha com dados massivos, oferecendo novas maneiras de reutilizar e extrair valor a partir de informações.
AUTOR : AKERKAR (2014)

Big data são os dados que excedem a capacidade de processamento de dados de sistemas convencionais
AUTOR : DUMBILL (2012)

Big data é a próxima geração de data warehousing e análise de negócios e está pronta para entregar receitas economicamente eficientes para as empresas. Este fenômeno se deve, em maior parte, ao rápido ritmo de inovação e mudança que estamos vivenciando hoje.

MINELI, CHAMBERS E DHIRAJ (2013)

Instalação do Pentaho BI Server no Ubuntu.

Introdução

Olá, neste pequeno post é apresentado como fazer uma instalação básica do Pentaho BI Server.
Apesar de ser uma instalação básica, ela já tem as funcionalidades necessárias para começar um projeto de Inteligência de Negócios, bem como ser a porta de entrada para apresentação desta poderosa ferramenta.

A instalação aqui apresentada foi realizada em uma máquina com o seguinte Sistema Operacional:
-Ubuntu 16.04 xenial.
Veja:

Pré requisitos:
Java ( JDK ).
Unzip ou algum aplicativo que descompacte arquivos “.zip”. Aqui, utilizo o próprio unzip do linux. Você pode facilmente instalá-lo com o comando “sudo apt-get install unzip”.

Mãos à obra:
1)Instalando o Java:
A) Instalando o JRE e JDK:
$ sudo apt-get install openjdk-8-jre openjdk-8-jdk

B) Verificando a versão do java instalado:
$ java -version

A saída deverá ser algo assim:

openjdk version “1.8.0_111”
OpenJDK Runtime Environment (build 1.8.0_111-8u111-b14-2ubuntu0.16.04.2-b14)
OpenJDK 64-Bit Server VM (build 25.111-b14, mixed mode)

Veja:

C) Configurando o $JAVA_HOME (Opcional).
Repare que o instalador (apt-get) não configura a variável de ambiente $JAVA_HOME. Tal variável não é essencial para a execução do Pentaho BI Server. No entanto, caso venha precisar utilizar essa variável para alguma outra situação, você pode configurá-lo no arquivo ~/.bashrc. Para isso faça:

C.1) Descubra o PATH no qual java foi instalado:
$ which java
$ ls -n /usr/bin/java
$ ls -n /etc/alternatives/java

C.2) Edite o arquivo ~/.bashrc
Com seu editor de textos preferido edite o arquivo ~/.bashrc. Utilizando o caminho que descobrimos no passo C.1, adicione a seguinte linha no final do arquivo:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64/

Repare que nesse ponto utilizamos apenas uma parte do caminho descoberto no item C.1. Exatamente o caminho necessário para o $JAVA_HOME.

2) Instalando o Pentaho BI Server
A) Criando uma pasta para comportar o Pentaho Server e baixando o BI Server do sourceforge.
No meu caso, criei a pasta “pentaho_server”.
$ mkdir ~/pentaho_server
$ wget https://sourceforge.net/projects/pentaho/files/Business%20Intelligence%20Server/6.1/biserver-ce-6.1.0.1-196.zip

B) Descompactando o arquivo baixado:
$ unzip biserver-ce-6.1.0.1-196.zip
C) Executando o BI-Server:
Na descompactação do arquivo é criado a pasta “biserver-ce”. Entre nela e execute o script shell ‘start-pentaho.sh’.
$ cd biserver-ce
$ ./start-pentaho.sh

Na primeira vez que for executado comando ‘start-pentaho.sh’, será perguntado se você deseja receber notificações de quando for lançado novas versões do pentaho. Basta dar “enter” nessa etapa e o prompt de comandos voltará. Veja:

D) Acessando Pentaho BI Server:
Abra o seu navegador web, digite o endereço: http://127.0.0.1:8080 e pronto.

Logue-se inicialmente com os seguintes dados:
User Name: admin
Password: password
E a página inicial deverá aparecer:

E) Parando o serviço:
Para parar o serviço, basta utilizar o seguinte comando, ainda na pasta “biserver-ce”:
$ ./stop-pentaho.sh

Acompanhamento do Licenciamento do Power BI

O licenciamento no Power BI não é complicado, no entanto, entender quais recursos estão incluídos em qual plano de licenciamento é sempre uma pergunta dos usuários. Neste post, você verá dados sobre todos os diferentes planos de licenciamento no Power BI, os cenários para usar o licenciamento e os cenários que talvez seja necessário alterar seu licenciamento. Este artigo destina-se a ajudá-lo a decidir o plano de licenciamento mais econômico para sua necessidade.

  • Power BI Free
  • Power BI Pro
  • Power BI Embedded
  • Power BI Premium
  • Power BI Report Server somente licenciamento

 

Power BI Free

Se você é novo no Power BI e já ouviu falar que o Power BI é gratuito, provavelmente uma de suas primeiras perguntas é essa; “Quais recursos eu recebo com a conta gratuita do Power BI?”. Vamos começar respondendo a essa pergunta. Com o Power BI gratuito, você obtém recursos como abaixo;

 

Power BI Desktop

O Power BI Desktop é a ferramenta do desenvolvedor para criar relatórios. Esta ferramenta é livre para usar, e não é necessário licenciamento para isso. Você pode construir soluções de Power BI com o Power BI Desktop tanto quanto desejar com qualquer tamanho de dados que desejar, desde que esteja na área de trabalho. As taxas de licenciamento geralmente começam quando você começa a compartilhar do serviço.

 

Publicando no Power BI


Você pode usar a mesma licença gratuita do Power BI para publicar seus relatórios no Power BI. Em outras palavras; Se você quiser criar um relatório do Power BI por conta própria e publicá-lo no serviço do Power BI e visualizá-lo em um navegador da Web, isso não lhe custará nada!

 

 

 

Publicar na Web

Compartilhar o conteúdo do Power BI com segurança não é um recurso gratuito. O único modo livre de compartilhamento é usar Publicar na Web, que é gratuito, mas não seguro. Publicar na Web está compartilhando seu conteúdo publicamente. Todos os outros métodos de compartilhamento precisam de assinatura paga.

 

 

Power BI Pro

O Power BI Pro é a assinatura por usuário do Power BI. No momento em que escrevo este post, custa US $ 9,99 por usuário por mês. Com o Power BI Pro, você pode obter tudo o que a conta gratuita possui, além de muitos outros recursos do serviço do Power BI, além de outros métodos de compartilhamento.

 

Compartilhando

Com o Power BI Pro, você pode usar todos os outros métodos de compartilhamento, exceto o Power BI Embedded (que vem por meio de uma opção de licenciamento diferente). Você pode usar Compartilhamento Simples, Espaços de Trabalho, Aplicativos Power BI e Incorporar no SharePoint Online. O importante é saber que, mesmo para consumir um conteúdo do Power BI compartilhado com você, você precisa fazer parte de uma assinatura paga (a única exceção é se você tiver acesso a um conteúdo do Power BI publicado na Web que seja gratuito).

2017-05-05_08h07_50

 

Integração

Com o Power BI Pro, você também pode obter alguns recursos de integração do Power BI, como “Analisar no Excel”.

 

 

Power BI Embedded

Se você quiser incorporar o conteúdo do Power BI em um aplicativo personalizado e usar seu próprio gerenciamento de usuários, o Power BI Embedded é o plano de licenciamento para você. Este plano de licenciamento não é por usuário porque não há usuário do Power BI para incorporação com um token. Este plano de licenciamento é baseado em renderizações de páginas.

 

Toda atualização na página que possui conteúdo do Power BI é uma renderização de página, se você selecionar um fatiador, que causa outra renderização de página, se você clicar em uma coluna em um gráfico de colunas e causar interatividade em outros gráficos, isso é outra página renderizada.

Com o Power BI Embedded, você pode reservar blocos de renderizações de página por hora de pico. aqui estão os custos no momento da criação deste post:

Tipo de Node Cores virtuais Memoria Frontend / Backend Cores Pico de renderização por hora Preço
A1 1 3 GB RAM 0.5 / 0.5 1 1 – 300 $1.0081/h
A2 2 5 GB RAM 1 / 1 1 301 – 600 $2.0081/h
A3 4 10 GB RAM 2 / 2 601 – 1,200 $4.0242/h
A4 8 25 GB RAM 4 / 4 1,201 – 2,400 $8.0565/h
A5 16 50 GB RAM 8 / 8 2,401 – 4,800 $16.13/h
A6 32 100 GB RAM 16 / 16 4,801 – 9,600 $32.26/h

 

Referência: https://azure.microsoft.com/en-us/pricing/details/power-bi-embedded/

 

A tabela de preços acima pode assustá-lo e você pode pensar imediatamente em não seguir o caminho do app incorporado. No entanto, é necessário informar que há alguns cenários em que o Power BI Embedded pode ser uma opção muito mais econômica do que o Pro. Aqui está um exemplo:

Suponha que você tenha 100 usuários para sua solução do Power BI. E seus usuários não estão conectando todos ao mesmo tempo para usar os relatórios do Power BI. Você pode ter o máximo de 300 renderizadores de página por hora para eles, se você usar o Power BI incorporado.  Nesse caso, o Embedded para esse cenário custaria cerca de US $ 700 por mês, onde o Power BI Pro para 100 usuários seria de US $ 1000 por mês.  Isso significa economizar US $ 3.600 por ano. Este é um cenário de exemplo em que o Power BI Embedded pode ser mais econômico do que o Pro.

Outro fato importante a considerar é que quando você pensa em Power BI Embedded, é o custo de um desenvolvedor da web.  O Power BI Embedded está trazendo o conteúdo do Power BI incorporado ao seu aplicativo personalizado e quem fará isso? um desenvolvedor web. Se mais tarde, você quiser fazer alterações na forma como os usuários estão trabalhando com o aplicativo, quem fará essa alteração? um desenvolvedor web.  O desenvolvedor da Web é o custo embutido do Power BI Embedded.

Power BI Premium

O Power BI Pro será caro para uma grande base de usuários, e o embedded precisa de uma manutenção constante por um desenvolvedor da web. Se você tem uma grande base de usuários (digamos 10.000 usuários), o Power BI Premium é a melhor opção de licenciamento para você. O Power BI Premium é projetado para cenários de grandes usuários, em que o tamanho dos dados é enorme.

O Power BI Premium não é por usuário, é por nó. No Power BI premium você paga por nós que possuem capacidade e recursos dedicados. Os custos por nós no momento em que esse post foi escrito;

2017-05-15_05h56_21

 

O preço começa nos nós P1, custando US $ 5 mil por mês.

Calculadora Premium

É um pouco difícil entender quantos nós ou quantos nós grandes você pode precisar para sua solução do Power BI. Felizmente, existe uma calculadora do Power BI Premium que pode ajudar. Aqui está um exemplo de cálculo para 10.000 usuários;

2017-05-15_06h29_13

 

Se você comparar o custo total de US $ 33 mil por mês com US $ 100 mil por mês (US $ 100 mil por mês se todos os 10.000 usuários comprarem o Power BI pro), você poderá entender como o premium do Power BI pode ser mais econômico em uma base de usuários maior.  A ideia por trás da criação do licenciamento premium do Power BI é essa; os usuários que estão apenas lendo um relatório não devem pagar os preços do Pro.

 

O que você ganha como recursos extras do Premium?

O premium também oferecerá alguns recursos extras. Alguns desses recursos foram lançados agora, e alguns deles ainda estão em desenvolvimento.

  • Recursos dedicados do Power BI
  • Armazenamento de grandes conjunto de dados e sem cotas de usuário: 100 TB de armazenamento em vez de 10 GB por usuário.
  • Atualização de conjunto de dados mais frequente: 48 vezes por dia, em vez de 8 vezes por dia
  • Servidor de relatório do Power BI: Power BI local
  • São suportados conjuntos de dados maiores (não disponível no momento da publicação deste post)
  • Atualização Incremental (não disponível no momento da publicação deste post)
  • Fixar o Dataset na memória (não disponível no momento da publicação deste post)
  • Nós de atualização de dados dedicados (não disponível no momento da publicação deste post)
  • Réplica Geo-réplica e somente leitura (não disponível no momento da publicação deste post)
  • Distribuição geográfica (não disponível no momento da publicação deste post)

 

 

SQL Server Enterprise Edition + Software Assurance

A combinação do SQL Server Enterprise Edition e a Software Assurance darão a você o Power BI Report Server.  Você ainda precisa ter a conta do Power BI pro para criadores de conteúdo, mas para o compartilhamento local de conteúdo do Power BI, você pode facilmente usar o servidor de relatório do Power BI. Eu explicarei mais sobre o Power BI Report Server em outro post.  Os valores dependem de negociação de licenças com a Microsoft.

 

Assim amigos, podemos apresentar algumas observações sobre o licenciamento do Power BI, para resolver mais dúvidas, procure a Microsoft.

Fonte : https://www.infointelligence.com.br/2018/03/28/um-guia-pratico-de-acompanhamento-do-licenciamento-do-power-bi/

 

Profiossional Cientista de Dados

Olá pessoal eu trabalho em outra área  e estou de olho em Data Science  na minha humilde pesquisa sobre a área os requisitos e constatei que se trata de uma junção de três áreas a saber Estatística, Programação e Negócios.

Para mim o profissional Cientista de dados seria o cara que conta com essas três graduações e não um cara que em uma graduação estuda esses três temas. Digo isso pelo aprofundamento no conhecimento solicitado desse profissional que é um unicórnio por ser exatamente raro.

Digo raro no sentido de ser um cara que é avançado em três áreas do saber e não um cara que viu um pouco de cada área em uma unica graduação.

 

 

Queria saber o ponto de vista dos amigos e amigas que estão na área se faz sentido isso que eu citei?

Pentaho Data Integration (Spoon): Um guia para novatos

Este artigo destina-se a novos usuários do Pentaho Data Integration e queiram saber como instalar as ferramentas e começar, eu conheci o Pentaho a partir da procura de ferramentas capaz de substituir a suíte de BI da Microsoft, então eu também apontarei questões que seriam novas para pessoas com um  background Microsoft.

Quando falamos sobre Pentaho neste artigo, nos referimos especificamente à ferramenta de integração de dados Pentaho (PDI) e ao IDE chamado Spoon.

Este artigo baseia-se na instalação do PDI em um PC.

 

Community Edition

Embora você possa comprar o produto Pentaho Data Integration, você também pode obter a ferramenta de integração de dados gratuitamente em sua edição da comunidade; que é uma maneira fantástica de começar com os produtos Pentaho.

Para começar com um download da visita do produto https://sourceforge.net/projects/pentaho/ ou http://community.pentaho.com/

Mas antes de entrar, vamos entender alguns detalhes sobre a instalação e configuração do produto.

 

Java Runtime Environment JRE™

O produto depende do JRE e a versão do JRE na sua máquina deve corresponder à versão do JRE necessária para a versão do Pentaho.

Um exemplo do link a ser usado para fazer o download do JRE para sua máquina é mostrado abaixo: –

http://www.oracle.com/technetwork/java/javase/downloads/jre8-downloads-2133155.html

O Pentaho não inclui todos os drivers que você precisa para se conectar a diferentes bancos de dados, mas aqueles que você precisa podem ser baixados gratuitamente. No entanto, esses drivers também são específicos da versão JRE.

Então, você precisa de três coisas que combinam com a mesma versão do JRE

JRE
Produto de integração de dados Pentaho
Drivers de banco de dados para o seu banco de dados

Neste artigo, temos o seguinte instalado: –

Pentaho Data Integration Versão 7 ou 8
JRE Versão 1.8, Java 8

 

Ligação a um banco de dados

Depois de instalar o produto, você deseja vincular a um banco de dados, e para fazer isso, você precisa do driver correto.  Isso envolve o download de um arquivo e a colocação do arquivo ou os componentes extraídos no diretório correto. Consideraremos o PostgreSQL e o SQL Server como bons exemplos.

 

PostgreSQL

Você pode baixar o banco de dados de código aberto e as ferramentas de administração do PostgreSQL gratuitamente em https://www.postgresql.org/, estamos executando a versão 9.6.

Depois de instalar o PostgreSQL, você precisa obter os drivers do JDBC para se conectar do Pentaho.

Se você procurar a documentação do Pentaho na instalação de drivers JDBC, você encontrará o seguinte link útil: – https://help.pentaho.com/Documentation/5.4/0D0/160/030

Este link informa onde instalar seus drivers nos diretórios de instalação dos produtos Pentaho, exigimos a seguinte informação:

Produto: Pentaho Data Integration (Spoon)
Caminho: pentaho/design-tools/data-integration/lib
Em nossa máquina, a pasta é D:\ pdi-ce-7.0.0.0-25\data-integration\lib

Em seguida, você precisa obter os drivers do JDBC para o PostgreSQL: –

https://jdbc.postgresql.org/download.html

A versão que eu instalei foi postgresql-9.4.1212

Figura 1: drivers JDBC PostgreSQL extraídos

Depois de baixar e extrair os dados, você precisa copiar o arquivo Jar para o diretório lib do Pentaho: –

Figura 2: driver JDBC copiado para a pasta pentaho lib

Em seguida, no PostgreSQL, você precisa de um banco de dados e um login adequado: –

Figura 3: um banco de dados PostgreSQL e uma conta de login apropriada

 

Depois de iniciar o Pentaho, crie uma nova transformação: –

Figura 4: Criando uma transformação simples

O Pentaho permite que você tenha JOBs para operações de sequenciamento e transformações para a transformação de dados, para testar nossa conexão de banco de dados, podemos criar uma transformação simples.

Adicione table input à sua transformação: –

Figura 5: Um passo de entrada da tabela adicionado à transformação

 

Um Table input, permite que você insira dados de uma tabela.

Clique duas vezes na entrada da tabela: –

Figura 6: Usando o Assistente para se conectar ao banco de dados

 

Em seguida, clique no Assistente e insira um nome para sua conexão e selecione PostgreSQL e JDBC: –

Figura 7: Escolhendo o tipo de banco de dados e driver

 

Digite localhost e o nome do banco de dados.

Figura 8: Especificando o servidor host eo nome do banco de dados

Em seguida, digite sua autenticação e teste a conexão: –

Figura 9: Autenticando e testando a conexão

 

Ao retornar à entrada da tabela, você poderá inserir o SQL para exibir os dados, depois clicar no botão de visualização para ver os dados.

Figura 10: Conexão e pré-visualização de dados de amostra

Este foi um exemplo de nível “Hello World” usando o Pentaho, com o objetivo de estabelecer e testar uma conexão de banco de dados PostgreSQL.

 

SQL Server

Tendo estabelecido uma conexão com o PostgreSQL, neste exemplo, observamos um exemplo equivalente usando o SQL Server. Se você não possui o SQL Server, então, você pode baixar uma cópia GRATUITA do SQL Server Express para começar.

Usei o seguinte link para baixar o driver JDBC: – https://www.microsoft.com/en-gb/download/details.aspx?id=11774

Procure o drive JDBC que suporta o JRE 8: –

Figura 11: Verificando a versão do JRE suportada

O execute o exe baixado e extrai o conjunto de arquivos: –

Figura 12: arquivos JDBC extraídos

De forma semelhante ao PostgreSQL, precisamos copiar o arquivo jar para o diretório lib do PDI: –

Figura 13: Copiando o arquivo extraído para o diretório lib

O SQL Server oferece suporte à autenticação do Windows, além da segurança de login do SQL Server, dependendo se você possui versões de 32 ou 64 bits, você pode encontrar o arquivo de autenticação na seguinte pasta de extração: –

Figura 14: Localizando o arquivo de autenticação correto

Tome cuidado para copiar o arquivo correto x86 ou X64, se você copiar a versão errada para sua máquina, você receberá os seguintes erros usar o pentaho: –

Esse driver não está configurado para autenticação integrada.

C: \Arquivos de programas\Java\jre1.8.0_111\bin\sqljdbc_auth.dll: Não é possível carregar IA.dll de 32 bits em uma plataforma AMD de 64 bits

Este arquivo precisa ser copiado para a pasta bin para a instalação java, aqui temos uma instalação de 64 bits (ou x86 para uma instalação de 32 bits).

C: \Arquivos de programas\Java\jre1.8.0_111\ bin

Figura 15: SQL Server SSMS mostrando o nome da instância do SQL Server

Certifique-se de fechar e, em seguida, reabriu o PDI se você terminou de instalar novos drivers JDBC.

Como no exemplo anterior, crie uma nova transformação e adicione uma Entrada de Tabela, conforme mostrado nas figuras anteriores 4 a 6. Clique no novo botão para criar uma conexão.

O SQL Server é um pouco mais complicado para trabalhar. Primeiro você deseja selecionar a opção nativa para o nosso driver jdbc. Então você quer usar a autenticação do SQL Server, portanto, o SQL Server precisa estar executando o suporte à autenticação do Windows e à autenticação do SQL Server.

Figura 16: Propriedades do servidor SSMS permitindo autenticação do SQL Server

Testar o SQL Server usando um login do SQL Server é sempre a opção mais simples para começar a funcionar, mesmo se você pretende usar a autenticação do Windows.

Figura 17: Selecionando novo para criar uma nova conexão com o SQL Server

Na Figura 17, escolhemos a opção (nativa) e o login do SQL Server. Na Figura 18, você pode ver a opção para usar a Autenticação do Windows.

Figura 18: Escolhendo usar a Autenticação do Windows.

Se você é novo no uso do Pentaho, espero que este artigo seja de alguma ajuda para começar.

 

Big Data: entenda as principais vantagens de utilizar na sua empresa

O estudo “A universe of opportunities and challenges”, feito pela EMC, estima que, até 2020, o universo virtual alcance 40 trilhões de gigabytes.

É um volume gigantesco de informação que circulará na Internet, gerando um novo desafio para as empresas: como processar a quantidade crescente de conteúdos produzidos pelos clientespara mapear comportamentos, tendências e oportunidades de negócios?

A solução envolve Big Data.

Uma ferramenta de Big Data Analytics é capaz de armazenar e trabalhar um grande montante de dados, gerando insights preciosos e cada vez mais acertados para as organizações.

Sua importância é tão grande, que o mercado em volta desse conceito poderá atingir US$ 72 bilhões até 2020.

Para você não perder as possibilidades dessa tecnologia, tampouco ficar para trás dos concorrentes na hora de obter análises mais precisas, separamos um pequeno guia sobre essa solução. Não deixe de conferir!

O que é Big Data

Para entender o que é Big Data, primeiro é preciso saber o que motivou o surgimento desse conceito.

O principal fator foi o crescimento da produção de dados, em especial por causa da expansão da Internet.

A maior adoção de sistemas empresariais por parte das companhias e a ampliação dos dispositivos tecnológicos também contribuíram para a elevação das informações produzidas pela humanidade.

Nesse contexto, um grande volume de dados, que ferramentas de processamento comuns não conseguem lidar, recebe o nome de Big Data.

Esses dados podem ser categorizados como não-estruturados, ou seja, que estão “soltos” em diferentes meios na web.

Há também os estruturados, que normalmente se encontram organizados em bancos de dados, planilhas, relatórios etc. dentro ou fora do ambiente empresarial.

Portanto, o termo trata de uma conceituação e não de uma tecnologia propriamente dita.

Porém, existe uma ferramenta que trabalha com esse montante de informações: o Big Data Analytics, que é capaz de processar conteúdos de várias áreas para gerar análises qualitativas e quantitativas.

Esse tipo de sistema coleta, une e compara conteúdo de fontes distintas para produzir informações úteis e estratégicas, que serão empregadas pelos líderes empresariais (gerentes, diretores, CEOs etc.) para a tomada de decisões.

O mais interessante é que essa ferramenta também é capaz de refinar dados de uma grande quantidade de dispositivos e mídias diferentes, como notebooks, smartphones, wearables, entre outros.

Atualmente, essa capacidade se tornou essencial por causa do crescimento da Internet of Things (IoT), ou Internet das Coisas.

Ela envolve a troca de dados, via web, por diferentes equipamentos, máquinas, dispositivos etc.

Dessa forma, podemos ter geladeiras, veículos, ares-condicionados, entre outros aparelhos, enviando e recebendo informações, enquanto compartilham instruções entre si. Isso por meio de sensores, câmeras e outros mecanismos.

Na indústria, por exemplo, as próprias máquinas usadas na produção conseguem “conversar” entre elas para otimizar os processos fabris.

Aliás, esse nível de automação e de integração está gerando a chamada Indústria 4.0, que veremos melhor adiante.

A consequência desses fatores é que a produção de dados se amplia bastante, gerando desafios novos para as empresas.

Segundo previsões da Cisco, até 2021, o tráfego IP entre módulos Máquina a Máquina (M2M) aumentará 49%.

Nesse cenário, o uso de tecnologias ligadas a Big Data contribui para a correta análise dos conteúdos gerados, uma vez que identificam padrões, desenvolvem estatísticas e permitem medir, com maior eficácia, as ações adotadas pelo negócio.

Isso pode levar à melhora dos processos, a partir da interpretação de tendências de mercado, comportamentos de consumo e de oportunidades.

Também é possível avaliar riscos com maior precisão, bem como realizar estimativas de consumo por meio de análises preditivas. Esses fatores contribuem para uma gestão mais eficiente do negócio.

Os 5 Vs do Big Data

O conceito de Big Data envolve os chamados 5 Vs. São eles:

Volume

Como vimos até agora, Big Data significa um gigantesco volume de dados.

Portanto, a grande quantidade de informações geradas a todo momento está intrinsecamente relacionada a ele.

Ao adotar uma solução Big Data Analytics, é possível processar e gerenciar o grande montante de dados que envolve uma empresa.

Só para reforçar a importância disso, apenas o WhatsApp, em 31 de dezembro de 2017 (véspera de ano novo), registrou mais de 75 bilhões de mensagens trocadas.

Isso só em um dia. Se considerarmos que há outras mídias e redes sociais, como Facebook, Twitter, Snapchat etc. que permitem compartilhamento de informações, poderemos ter a noção do quão grande é a produção de dados apenas nos aplicativos sociais e de comunicação.

Variedade

Big Data envolve uma grande variedade de informações.

Não estamos falando apenas de textos e dados convencionais, como os organizados em tabelas e bancos de dados.

É mais amplo que isso, pois engloba:

  • imagens, como fotos, ilustrações, prints de telas etc.;
  • dados de reconhecimentos faciais;
  • áudios;
  • vídeos;
  • dados produzidos por dispositivos via IoT etc.

Velocidade

Esse item tem a ver com a grande velocidade em que os dados são produzidos hoje em dia.

Além das mídias sociais, temos milhões de operações sendo realizadas constantemente.

Por exemplo, compras por cartões de crédito que requerem aprovações, vendas e aquisições de ações, análises de flutuações de câmbio de moedas internacionais etc.

Cada processo desses gera dados importantes, que podem ser trabalhados instantaneamente pelas soluções de Big Data, sem que seja preciso armazená-los.

Veracidade

Com processos de validação e conferência de dados, uma ferramenta de Big Data pode entregar dados mais confiáveis e verídicos, por meio de relatórios, estatísticas, análises etc. com base em grandes volumes de informações.

Valor

Além de tudo, as informações produzidas precisam ser relevantes para o negócio. Esse é um dos objetivos do Big Data: gerar conteúdos que agreguem valor.

É por meio deles que os gestores poderão melhorar as suas decisões.

Importância do Big Data

Até o momento, a importância do Big Data talvez não tenha ficado clara.

Para mostrar quais são os potenciais de uma solução desse tipo, separamos alguns de seus principais usos nas empresas. Confira!

Possibilidade de fazer uma escuta social

Ferramentas de Big Data têm a capacidade de cruzar informações de diferentes fontes, como bancos de dados, cadastros de consumidores, históricos de mensagens e de interações com os clientes, entre outras.

A partir disso, processam esses dados por intermédio de comparações, mapeamento de padrões, busca de correlações de diversas espécies etc.

Sistemas de Big Data podem monitorar, por exemplo, conversas em mídias sociais e os percursos realizados por internautas em comércios eletrônicos.

Também podem analisar os Trending Topics do Twitter e as interações de clientes com os perfis da empresa no Facebook, no Snapchat, no Instagram etc.

Graças a isso, dá para executar uma espécie de “escuta social” sobre como a marca é vista e compreendida em diferentes mídias e redes de usuários.

Com base nas informações geradas, é possível saber se ela está com a reputação positiva ou se precisa trabalhar melhor como é percebida pelo público online.

Vale destacar que as informações geradas costumam ser qualificadas e facilmente compreensíveis, o que ajuda também no entendimento.

Afinal, não adianta produzir dados úteis se eles forem difíceis de serem interpretados. Para tanto, ela é capaz de gerar gráficos, estatísticas, tabelas, entre outros recursos visuais.

Maior facilidade para segmentação de público e mercado

Com base nos resultados do monitoramento do público e das avaliações geradas, dá para se compreender melhor o comportamento de clientes e potenciais clientes.

Isso, por sua vez, permite descobrir exigências, desejos e outras demandas dos compradores, o que também possibilita encontrar tendências de consumo.

O resultado é que se torna mais fácil definir estratégias para satisfazer esses indivíduos.

Inclusive, com uma boa observação, dá para descobrir nichos e necessidades não atendidas, o que gera oportunidades de negócios.

Afinal, será possível segmentar o público com maior eficiência ao saber o que os seus integrantes procuram.

As oportunidades também envolvem a identificação de novos segmentos de negócios, o que permite atender a nichos do mercado que não são cobertos pela concorrência.

Realizar análises comparativas para precificação inteligente

Dificuldades de comunicação entre os departamentos de vendas e de compras podem gerar problemas de precificação de produtos.

Por exemplo, caso uma matéria-prima fique mais cara, o preço da mercadoria final normalmente deve ser reajustada para a empresa continuar adquirindo mais insumo para a fabricação sem ter os seus lucros futuros prejudicados.

Se isso não ocorrer, ela poderá perder dinheiro.

Um sistema de Big Data une esses dados e permite aos departamentos acessarem relatórios e informações em tempo real, melhorando a comunicação.

Ele também pode precificar de forma adequada produtos e serviços ao considerar os valores praticados pela concorrência, potenciais demandas, cenários micro/macroeconômicos, entre outros fatores.

Tudo para conseguir preços mais atrativos para o público e para a própria organização.

Efetuar análises de marketing

Além dos dados gerados em redes sociais, uma solução de Big Data pode avaliar históricos de vendas e de campanhas publicitárias, períodos de sazonalidade, cadastros de clientes, entre outras fontes de dados para estratégias de marketing.

As informações extraídas podem ser usadas, por exemplo, para conhecer comportamentos dos consumidores em tempo real.

Também contribuem para detectar indicadores, como o Churn Rate (Taxa de Cancelamento) e a Taxa de Conversão.

Com essas métricas em mãos, pode-se avaliar o que deu certo no passado para buscar inovações, repetir as ações que tiveram êxito e definir estratégias de marketing mais eficazes.

Mensurar a satisfação do cliente

Uma das grandes vantagens do Big Data Analytics é unir diferentes mídias e meios para entregar análises mais acuradas. Isso ajuda, por exemplo, a mensurar os níveis de satisfação dos clientes de uma forma mais acertada.

Por mais que um cliente possa responder positivamente a uma pesquisa de satisfação, talvez ele não esteja realmente satisfeito.

Tal fato pode ser vislumbrado em comentários negativos sobre a empresa na web, abandono dos acessos ao site (que antes eram frequentes), interrupção de idas ao estabelecimento etc.

Uma ferramenta tecnológica que considere o que o cliente diz e, mais do que isso, o que não diz e como se comporta em relação ao negócio, pode gerar um panorama mais claro sobre o que fazer para potencializar a relação com o público.

Coleta e processamento de dados em Big Data

A coleta de dados em Big Data segue algumas etapas. Normalmente, ela é dividida em quatro partes:

Coleta

A primeira etapa envolve a coleta propriamente dita. É quando a ferramenta busca dados e é alimentada com eles.

Para tanto, efetua um trabalho analítico e inteligente de um volume grande de dados, estejam eles estruturados ou não.

Além do mais, há a combinação de conteúdos internos, da própria empresa, e externos, ou seja, alheio a ela. Tudo isso em um curto período. As fontes internas usadas podem envolver:

  • relatórios e históricos do empreendimento;
  • indicadores de desempenho da empresa dos vários setores que a compõem;
  • documentos gerenciais, contábeis, financeiros etc.;
  • pesquisas de satisfação realizadas com os clientes;
  • estatísticas de processos, atividades e colaboradores;
  • e-mails corporativos enviados e recebidos;
  • sistemas empresariais, como de Business Intelligence (BI);
  • cadastros de clientes;
  • programas de benefícios e de cartões etc.

As fontes externas à empresa podem englobar:

  • conteúdos de redes sociais;
  • conteúdos em datawarehouses;
  • informativos e periódicos do setor que apontem tendências e informações relevantes;
  • bancos de dados compartilhados por terceiros, como fornecedores, distribuidores, serviços de proteção ao crédito, entre outros tipos de parceiros etc.

Armazenamento

O armazenamento consiste na distribuição dos dados em servidores, dispositivos e sistemas distintos, tanto físicos quanto na nuvem (cloud computing).

Isso assegura que existam backups de segurança para as informações armazenadas, especialmente as geradas após processamentos de grandes volumes de conteúdos, ou seja, as refinadas.

Lembrando que o Big Data pode analisar dados em tempo real.

Organização

Essa etapa engloba o arranjo e a categorização, ou classificação, dos dados que estão estruturados, não estruturados ou semiestruturados.

Isso para que possam ser mais facilmente acessados e analisados pelos gestores.

Análise

É a fase em que se avaliam os dados.

Pode ser em tempo real ou em cima dos dados armazenados e organizados nas etapas acima.

Ela envolve o processamento dos conteúdos reunidos para a extração de informações úteis, relevantes e estratégicas. Existem diferentes tipos de análises.

Veja as principais:

  • descritiva: procura fazer uma “fotografia do presente”, ou seja, descrever a situação de algo. Ela trabalha, por exemplo, com histórico de dados. É útil em análises de crédito, pois cruza diferentes informações para gerar um panorama mais claro sobre as possibilidades e potencialidades dos clientes;
  • diagnóstica: é centrada nas causas e consequências sentidas ao longo do tempo, em um assunto. Por exemplo, para solucionar um alto volume de quebras nas entregas, é preciso diagnosticar suas prováveis causas;
  • preditiva: avalia possibilidades futuras com base na identificação de padrões passados. Ela permite identificar demandas, tendências, novas oportunidades etc.;
  • prescritiva: enquanto a análise diagnóstica busca entender as causas de algo, a prescritiva tenta traçar as possíveis consequências de determinadas ações. Ela é parecida com a preditiva, porém serve para se escolher qual opção é melhor em uma situação.

Como funciona Big Data nas empresas

Manufatura

Na indústria, uma solução de Big Data contribui para aumentar a qualidade e a produção enquanto minimiza o desperdício.

Além disso, esse tipo de solução é uma das bases para o surgimento da Indústria 4.0, em que a automação é total.

Os programas e recursos também são integrados, há maior descentralização de processos e a planta fabril conta com alta modularidade de sistemas.

Nesse caso, cada módulo consegue atuar na produção de acordo com as demandas existentes.

Uma pesquisa da Pricewaterhouse Coopers (PwC), feita com aproximadamente duas mil empresas, em 26 países, trouxe um dado interessante sobre a indústria 4.0.

Segundo ela, 72% das organizações industriais acreditam que a utilização de Big Data e análise de dados otimizarão a relação com consumidores e a inteligência na gestão de clientes ao longo do ciclo de vida do produto.

Varejo

Uma solução de Big Data Analytics é muito útil no varejo para a construção de relacionamento com os clientes por meio dos dados.

Afinal, ela pode processar informações oriundas de pesquisas de mercado, de relatórios após interações com os clientes, de programas de fidelidade etc.

Com base nessas informações, dá para descobrir quais são as maiores necessidades dos consumidores e o que pode ser realizado para melhorar o atendimento fornecido pela companhia.

Para uma varejista, isso pode ser mais simples do que parece. Afinal, ela costuma atender um grande volume de clientes diariamente.

Devido a esse fator, a quantidade de informações resultantes de negociações e demais interações com o público geralmente é alta.

Logo, há bastante material para se detectar padrões e pontos que contribuem para estreitar laços com múltiplos perfis distintos.

Os dados gerados por uma ferramenta de Big Data podem ajudar a melhorar:

  • os níveis de satisfação dos clientes;
  • os programas de fidelidade, tornando-os mais condizentes com as expectativas dos consumidores;
  • as estratégias de ofertas, promoções e descontos;
  • a escolha de prêmios para clientes fiéis;
  • a localização de menus e botões nos comércios eletrônicos, uma vez que, como mencionado, é possível mapear o percurso dos usuários nas lojas virtuais, entre outros processos.

A avaliação de uma grande quantidade de informações pode gerar insights importantes para varejistas. Um exemplo ocorreu com o Walmart norte-americano.

Ele identificou que, nos EUA, depois de furacões, um produto tinha maior demanda, a qual aumentava cerca de sete vezes mais do que em épocas normais: o Pop Tarts de morango.

Essa espécie de tortinha em miniatura não precisa de aquecimento e pode ser consumida facilmente, o que explica a procura nesses períodos.

Tendo por base essa informação, amparada em análises preditivas, a cadeia de supermercados pôde-se planejar para abastecer os seus estoques com maior precisão e eficiência quando havia avisos de novos furacões.

Saúde

Soluções de monitoramento aliadas a tecnologias que executam análises eficientes podem ser empregadas na saúde.

Um exemplo ocorreu com o hospital Mt. Sinai Medical Center, de Nova Iorque. Ele conseguiu reduzir o período de espera para mais de 50% dos pacientes do seu pronto-socorro, em uma hora, graças a esses tipos de soluções.

A ferramenta utilizada faz o processamento de até 80 solicitações de leitos, além de acompanhar a utilização de 1.200 deles.

Ela ainda identifica quais estão disponíveis para encontrar a melhor correspondência entre eles e os pacientes.

Isso é feito por meio de equipamentos de reconhecimento de local em tempo real, como infravermelho, etiquetas de identificação por radiofrequência e visão computacional.

Também analisa 15 fatores referentes às necessidades de pacientes, como ser posto perto de uma área de enfermagem, para auxiliar no preenchimento das vagas de forma adequada.

Serviços financeiros

Como visto na análise descritiva, o uso de Big Data é importante nos serviços financeiros.

Por meio dele, é possível otimizar avaliações de crédito e processos de prevenção a fraudes.

Afinal, um sistema assim é capaz de analisar um grande volume de dados em busca de padrões que denotem possíveis fraudes ou comportamentos suspeitos.

Construção

O setor de construção também pode se beneficiar do Big Data.

Um exemplo está na construção das smart cities (cidades inteligentes), que integra também IoT. Nelas, essas tecnologias podem ser usadas para:

  • aprimorar a infraestrutura e os serviços usados pelos habitantes;
  • integrar metrô, ônibus, trem e outros modais;
  • automatizar e monitorar redes de distribuição de energia automatizadas em tempo real, podendo detectar ocorrências no fornecimento;
  • fornecer acesso a centenas de serviços de diversos órgãos governamentais em apenas um ambiente virtual (site);
  • agilizar a troca de informações climáticas, permitindo a provedores de energia provisionar a demanda no sistema e prevenir eventuais interrupções no abastecimento etc.

Cursos de Big Data

Existem diversos cursos de Big Data no mercado, tanto presenciais quanto à distância.

As metodologias empregadas variam também, de modo que fica a seu critério a escolha do que melhor atende às suas necessidades.

Veja alguns exemplos:

  • Fundamentos do Big Data: ministrado pela Big Data University, esse é um curso curto e básico, ou seja, para iniciantes na área. Ele aborda os principais temas de Big Data, como seu conceito e sua importância, além de pincelar sobre como desenvolver uma plataforma do tipo;
  • Data Science: do Dado à Tomada de Decisãofeito pela Hekima Big Data Analytics e disponibilizado via Udemy (plataforma de aprendizado online), esse já tem nível intermediário. É bastante detalhado, trazendo dicas de ferramentas e conceitos técnicos da área. É indicado para desenvolvedores que desejam atuar em ciência de dados;
  • Ciência de Dados (Big Data): é um MBA online, feito pela IGTI. Dura 13 meses, tendo 396 horas de aulas e conteúdos. É preciso ir até a instituição física em alguns momentos, como na apresentação do trabalho final de conclusão de curso;
  • Big Data (Senac SP): essa pós-graduação é oferecida pelo Senac SP, contando com carga horária de 366 horas. Seu propósito é formar profissionais capazes de efetuar o gerenciamento de Big Data. Inclui sistemas analíticos, tecnologias, metodologias e processos da área. Graças a isso, possibilita a compreensão e a estruturação conceitual desse conjunto de dado (Governança de Dados).

Como vimos, os exemplos de Big Data envolvem as mais simples aplicações até as mais avançadas e modernas.

Por isso, é essencial investir em uma ferramenta de Big Data Analytics.

Dessa forma, você poderá aproveitar os potenciais dessa ferramenta e, consequentemente, obter vantagens competitivas frente a concorrência.

Fonte do Artigo: https://www.totvs.com/blog/big-data/

Executar script SQL Server via linha de comando

Executar script SQL Server via linha de comando


O executável “Sqlcmd” do SQL Server permite executar um script através de linha de comando, isso é bastante útil quando se tem um arquivo de script muito grande que não pode ser aberto através do SQL Management Studio.

Para utilizar esse programa, basta abrir um prompt de comando e utilizar o comando “Sqlcmd”

Sintaxe

A sintaxe é a seguinte:

usage: Sqlcmd
[-U login id]
[-P password]
[-S server]
[-H hostname]
[-E trusted connection]
[-d use database name]
[-l login timeout]
[-t query timeout]
[-h headers]
[-s colseparator]
[-w screen width]
[-a packetsize]
[-e echo input]
[-I Enable Quoted Identifiers]
[-c cmdend]
[-L list servers[clean output]]
[-q “cmdline query”]
[-Q “cmdline query” and exit]
[-m errorlevel]
[-V severitylevel]
[-W remove trailing spaces]
[-u unicode output]
[-r[0|1] msgs to stderr]
[-i inputfile]
[-o outputfile]
[-z new password]
[-f | i:[,o:]]
[-Z new password and exit]
[-k[1|2] remove[replace]control characters]
[-y variable length type display width]
[-Y fixed length type display width]
[-p[1] print statistics[colon format]]
[-R use client regional setting]
[-b On error batch abort]
[-v var = “value”…]
[-A dedicated admin connection]
[-X[1] disable commands, startup script, enviroment variables [and exit]]
[-x disable variable substitution]
[-? show syntax summary]

Exemplo de sintaxe

sqlcmd -S [server] -d [database] -U [usuario] -P [senha] -i [script.sql] -o [log.txt]

Para saber mais

https://msdn.microsoft.com/library/ms162773.aspx

Ferramentas do Mundo Big Data

Apache Hadoop

Em se tratando de Big Data, sabemos que é gigantesco o volume de dados gerados, podendo chegar a inúmeros gigabytes. Por isso, é importante poder contar com uma ferramenta dedicada ao armazenamento desses dados.

Apache Hadoop é uma das principais ferramentas de Big Data utilizadas no mercado. Esse famoso software é capaz de aumentar ou diminuir o tamanho de qualquer arquivo. Tudo isso de maneira ágil.

A plataforma está disponível nas versões gratuita e paga.

 

Oracle Data Mining

A mineração de dados é uma das etapas da análise de Big Data que consiste em “peneirar” as informações mais relevantes em meio a todo aquele volume coletado.

Para ajudar nessa parte, você pode recorrer ao Oracle Data Mining. Essa ferramenta fornece poderosos algoritmos de mineração de dados que permitem aos analistas obterem insights, fazer previsões e alavancar investimentos.

Com o ODM, você pode também criar e aplicar modelos preditivos e fazer projeções sobre o comportamento do cliente, desenvolver perfis, identificar oportunidades de vendas e detectar possíveis anomalias e fraudes.

Statwing

Statwing é uma ferramenta muito útil para análise estatística. Para utilizá-lo, basta importar uma planilha para essa plataforma e os dados serão verificados automaticamente.

Por meio do Statwing, é possível construir relações entre diferentes dados e chegar a conclusões bem fundamentadas. Além disso, você pode:

  • Fazer uma análise detalhada sobre conjunto de dados;
  • Comparar e descrever os dados coletados;
  • Gerar tabelas e gráficos automaticamente.

Tableau

Visualizar as informações com clareza é fundamental para quem quer investir em análises de Big Data. Nesse sentido, uma das principais ferramentas de Big Data para essa finalidade (visualização) é o Tableau.

Trata-se de um software que permite criar mapas, gráficos variados, tabelas e outros recursos gráficos para facilitar a compreensão das informações ali colocadas.

Tudo isso é criado de forma rápida e atualizado em tempo real. Estão disponíveis versões gratuitas e versões pagas com funcionalidades adicionais.

Chartio

Chartio permite que você combine os diferentes dados coletados e crie relatórios diretamente no seu navegador. Os arquivos, então, poderão ser convertidos em formato PDF e enviados por e-mail.

Essa ferramenta também está disponível nas versões gratuita e paga.

Pentaho

Durante a análise de Big Data, é interessante tentar integrar as informações das diferentes plataformas e softwares utilizados. O Pentaho é um exemplo de ferramenta que permite essa integração.

Com o Pentaho, é possível conectar o Tableau (item 5) com as redes sociais da sua empresa e, a partir disso, ser mais eficiente no uso dessas informações.

O Pentaho é gratuito no primeiro mês.