Pages

Google Ads

Saturday, June 15, 2013

Profissão do futuro: Lixeiro Digital. Porquê a capa da Revista Veja é sobre Big Data.

Amigos leitores,

Essa notícia é antiga (Abril/2013) e muitos já sabem, mas resolvi comentar sobre essa reportagem que tanto deu o que falar. Como melhor que indicar é deixar minhas impressões, seguem abaixo meus comentários.

Já pensou em ser lixeiro*? Isso, lixeiro digital? Já pensou em trabalhar com dados reciclados? Posso dizer com certeza que essa será a profissão do futuro.

A reportagem não trata diretamente sobre isso, mas a minha percepção de Big Data é a possibilidade de transformar dados, inclusive aqueles dados que alguns consideram lixo, em ouro. Isso mesmo!

Dados = Informação = Conhecimento = $$$$

Se você quer ficar rico, acredito que vale a pena parar e ler mais sobre o assunto.



A edição de abril de 2013 da revista Veja teve como capa o tema BIG DATA, porém essa não foi uma edição qualquer e sim uma edição comparada com edições importantes na história do Brasil.

Na página 15, chamada Carta ao Leitor, temos um texto muito importante que diz "O desafio do Big Data"; nesta página a revista fala da grande dificuldade de explicar de forma simples um assunto muito complexo e importante, e compara a importância dessa edição com a edição de 1981 que teve como capa a chegada dos computadores pessoais ao Brasil, e com a edição de 1995, que teve como capa a internet, e destaca a importância de falar sobre um tema que afetará a vida de todos os habitantes do planeta terra. Esse assunto chama-se BIG DATA e deve ser levado a sério por todos.

Para quem é geek ou nerd isso não é novidade, afinal já faz parte da vida de quem trabalha com BI (Business Intelligence) e Dados.

Para quem ainda não leu a matéria eu recomendo ler logo, pois isso vai afetar inclusive a vida de profissionais não relacionados com TI.

Resolvi fazer alguns comentários sobre a matéria.

A primeira frase de impacto começa assim:

"ON-LINE AINDA NO VENTRE. Uma em cada três crianças americanas já está presente na web antes mesmo de nascer -- normalmente uma ultrassonografia é postada pelos pais em redes sociais. Aos 2 anos, 92% das crianças estão na internet, em fotos ou vídeos, e algumas até contam com perfil no Facebook. Vivemos num mundo no qual cada momento da vida passou a ser digitalizado."
(Texto extraído da página 70 da edição de Abril de 2013 da Revista Veja)

Resolvi extrair uma parte do texto escrito pela revista Veja que relata um caso real de uso de dados brutos para a geração de informação e conhecimento. Trata-se da empresa americana chamada Target, uma gigantesca loja de departamento com 1800 pontos de venda nos Estados Unidos. Segue o texto:

'' (...) atribuiu um número a cada um de seus milhões de clientes e passou a rastrear e armazenar todas as pegadas digitais deixadas por elas: produtos preferidos, hábitos de consumo, média de gastos, uso de cupons, cartão de fidelidade. Somou a isso dados demográficos de cada um deles, adquiridos em empresas do ramo: sexo, idade, profissão, local de moradia, estimativa de renda. Contratou estatísticos para analisar essas informações e montou um retrato preciso do padrão de consumo de cada cliente. Um dia aconteceu um incidente. 

Um senhor entrou esbravejando numa loja da Target em Minnesota. Trazia nas mãos cupons de produtos para bebês. "Minha filha recebeu isto aqui pelo correio", reclamou o senhor para o gerente. "Ela é uma adolescente. Vocês estão querendo estimulá-la a engravidar? " O gerente conferiu a remessa de cupons e, constrangido, pediu desculpas. Dias depois, com receio de perder o cliente, telefonou para ele a fim de desculpar-se outra vez. O pai da adolescente estava desconcertado do outro lado da linha: "Tive uma conversa com a minha filha. Fiquei sabendo de algumas coisas que estavam acontecendo dentro da minha casa". Respirou fundo e completou: "Ela vai dar à luz em agosto..."

Outro ponto interessante levantado na matéria é o fato de que em quinze minutos a humanidade gera o triplo de informações disponíveis no acervo da Biblioteca do Congresso, a maior do mundo.

Chegamos à era do BIG DATA por alguns motivos como: queda no custo de armazenar dados (um comparativo da queda do custo é o fato de que há duas décadas, estocar 1 gigabyte saía por 1000 doláres e hoje custa 6 centavos), os processsadores tornaram-se mais velozes, os programas ficaram mais inteligentes e a quantidade de dados cresce absurdamente.

Para entender a importância de BIG DATA eu gostaria de contar a história de um amigo que há alguns anos atrás, mais ou menos 15 anos atráss ele decidiu virar lixeiro, ou melhor, ele resolveu trabalhar com lixo e reciclar esse lixo. O tempo passou e hoje ele é um empresário de sucesso e seu trabalho é coletar "lixo" de empresas e reciclar; ele transforma "lixo" em dinheiro, e ele ganha muito dinheiro! Quem antigamente era chamado de lixeiro por seus amigos, hoje é dono de muita coisa.

Se pedaço de papel, vidro, madeira ou qualquer coisa que foi jogada no lixo, tem valor e pode ser transformada em dinheiro, por que não transformar dados estruturados e não estruturados em dinheiro?

Isso não é algo novo, muitas pessoas e empresas ganham muito dinheiro vendendo informação, e a matéria prima são os dados; um exemplo clásssico é a empresa SERASA EXPERIAN e tantas outras que fazem trabalhos com dados.

Eu mesmo como um profissional de BI (Business Intelligence) já tive a oportunidade de ajudar muita gente e muitas empresas a transformar um BANDO DE DADOS em um Banco de Dados extremamente valioso para a empresa, capaz de responder as mais diversas perguntas dos mais altos executivos, e felizmente essa vida de lixeiro digital me traz muita alegria e me permite viver a vida da forma que eu gosto de viver.

Mas vamos falar de BIG DATA. Para entender o assunto é importante entender sobre dados, os quais podem ser divididos em dois tipos:

- Dados Estruturados: são dados que normalmente estão organizados, limpos, corretos, checados, como por exemplo a sua listagem de clientes.

- Dados Não Estruturados: são dados sujos, incompletos, caóticos, como por exemplo o clique do mouse para comprar um livro na Amazon, ou não comprar, a nova foto no facebook, um novo tuíte, um novo video no youtube, a pesquisa no google, o telefonema gravado para nossa "segurança", a música online que se escuta, o livro que se lê num leitor eletrônico, o e-mail que não chega a ser enviado, entre outros.

Você já reparou quanto "lixo" on-line geramos todos os dias? Esse lixo vale ouro.

Será que estamos olhando os dados com os olhos corretos?

Não vou resumir a matéria inteira, deixo para você leitor, ler, prestando atenção aos detalhes, e abrir sua mente para um mundo cheio de possibilidades.

Para terminar gostaria de publicar um e-mail que recebi de um aluno muito bom chamado Ricardo Chiavelli; ele tem uma empresa que, assim como a minha, transforma dados em informação e conhecimento.

Chama-se ''A Pizzaria do Google''. É um e-mail muito engraçado, porém eu precisei fazer pequenas adaptações removendo os palavrões que, não sei porquê, foram colocados pelo autor (eu não sei quem escreveu esse texto, parece piada, mas vale a pena ser lido).


 Pizzaria Google, boa noite!
- De onde falam?
Pizzaria Google, senhor. Qual é o seu pedido?
- Mas este telefone não era da Pizzaria do...
- Era, sim senhor, mas a Google comprou a Pizzaria, e agora sua pizza é mais completa.
- OK. Você pode anotar o meu pedido, por favor?
- Pois não. O Senhor vai querer a de sempre?
- A de sempre? Você me conhece?
- Temos um identificador de chamadas em nosso banco de dados, senhor. Pelo que temos registrado aqui, nas últimas 53 vezes que ligou, o senhor pediu meia quatro queijos e meia calabresa.
- Puxa, eu nem tinha notado! Vou querer esta mesmo...
- Senhor, posso dar uma sugestão?
- Claro que sim. Tem alguma pizza nova no cardápio?
- Não senhor. Nosso cardápio é bem completo, mas eu gostaria de sugerir-lhe meia ricota, meia rúcula.
- Ricota ??? Rúcula ??? Você ficou louco? Eu odeio estas coisas.
- Mas, senhor, faz bem para a sua saúde. Além disso, seu colesterol não anda bom...
- Como você sabe?
- Nossa Pizzaria tem o banco de dados mais completo do planeta. Nós temos o banco de dados do laboratório em que o senhor faz seus exames, também. Cruzamos seu número de telefone com seu nome e temos o resultado de seus exames de colesterol. Achamos que uma pizza de rúcula e ricota seria melhor para sua saúde.
- Eu não quero pizza de queijo sem gosto e nem pizza de salada. Por isso tomo meu remédio para colesterol e como o que eu quiser...
- Senhor, me desculpe, mas acho que não vem tomando o seu remédio ultimamente.
- Como sabe? Vocês estão me vigiando o tempo todo?
- Temos o banco de dados das farmácias da cidade. A última vez que o senhor comprou seu remédio para Colesterol faz 3 meses. A caixa tem 30 comprimidos.
- Caramba! É verdade. Como vocês sabem disto?
- Pelo seu cartão de crédito...
- Como?!?!?
- O senhor tem o hábito de comprar seus remédios em uma farmácia que lhe dá desconto se pagar com cartão de crédito da loja. E ainda parcela em 3 vezes sem acréscimo... Nós temos o banco de dados de seus gastos com o cartão na farmácia. Há 2 meses o senhor não compra nada lá, mas continua usando seu cartão de crédito em outras lojas, o que significa que não o perdeu; apenas deixou de comprar remédios.
- E eu não posso ter pago em dinheiro? Agora te peguei...
- O senhor não deve ter pago em dinheiro, pois faz saques semanais de R$ 250,00 para sua empregada doméstica. Não sobra dinheiro para comprar remédios. O restante, o senhor paga com cartão de débito.
- Como você sabe que eu tenho empregada e quanto ela ganha?
- O senhor paga o INSS dela mensalmente com um DARF. Pelo valor do recolhimento dá para concluir que ela ganha R$ 1.000,00 por mês. Nós temos o banco de dados dos Bancos também. E pelo seu CPF...
- ORA VÁ PASSEAR !
- Sim senhor, me desculpe, mas está tudo em minha tela. Tenho o dever de ajudá-lo. Acho, inclusive, que o senhor deveria remarcar a consulta que o senhor faltou com seu médico, levar os exames que fez no mês passado e pedir uma nova receita do remédio.
- Por que você não vai passear...???
- Desculpe-me novamente, senhor.
- ESTOU FARTO DESSAS DESCULPAS. ESTOU FARTO DA INTERNET, DE COMPUTADORES, DO SÉCULO XXI, DA FALTA DE PRIVACIDADE, DE BANCOS DE DADOS E DESTE PAÍS...
- Mas senhor...
- CALE-SE! VOU ME MUDAR DESTE PAÍS PRA BEM LONGE. VOU PARA AS ILHAS FIJI OU ALGUM LUGAR QUE NÃO TENHA INTERNET, COMPUTADORES, TELEFONE E GENTE ME VIGIANDO O TEMPO TODO...
- Sim, senhor...entendo perfeitamente...
- É ISTO MESMO! VOU ARRUMAR MINHAS MALAS AGORA E AMANHÃ MESMO VOU SUMIR DESTA CIDADE.
- Entendo...
- VOU USAR MEU CARTÃO DE CRÉDITO PELA ÚLTIMA VEZ E COMPRAR UMA PASSAGEM SÓ DE IDA PARA ALGUM LUGAR BEM LONGE DE VOCÊ !!!
- Perfeitamente...
- E TAMBÉM QUERO QUE VOCÊ ME ESQUEÇA!
- Farei isto senhor... ...(silêncio de 1 minuto)
- O senhor está aí ainda?
- SIM, PORQUE? ESTOU PLANEJANDO MINHA VIAGEM... E VC PODE CANCELAR A MINHA PIZZA.
- Perfeitamente. Está cancelada. ...(mais um minuto de silêncio)
- Só mais uma coisa, senhor...
- O QUE É AGORA?
- Devo lhe informar uma coisa importante...
- FALA, CARAMBA....
- O seu passaporte está vencido!

Acredito que esse texto explica muito bem sobre cruzar informações estruturadas e não estruturadas, sobre armazenar dados, sobre minerar dados, sobre BIG DATA.

Apesar de muito estar sendo falado sobre BIG DATA, não se esqueça de estudar também sobre Open Data (Dados Abertos) e Business Intelligence Open Source.

* Lixeiro = Tenho muito respeito por essa profissão e sei que é de importância fundamental para o mundo.


Friday, June 14, 2013

Configuring Cron Tasks (CentOS)

Hi guys,

If you need to use Cron on CentOS try it.

vi /etc/crontab

Real Example:

SHELL=/bin/bash
PATH=/sbin:/bin:/usr/sbin:/usr/bin
MAILTO=root
HOME=/

# For details see man 4 crontabs

# Example of job definition:
# .---------------- minute (0 - 59)
# |  .------------- hour (0 - 23)
# |  |  .---------- day of month (1 - 31)
# |  |  |  .------- month (1 - 12) OR jan,feb,mar,apr ...
# |  |  |  |  .---- day of week (0 - 6) (Sunday=0 or 7) OR sun,mon,tue,wed,thu,fri,sat
# |  |  |  |  |
# *  *  *  *  * user-name command to be executed

#ETLs BI Project
30 * * * * * /home/pentaho/shellscripts/job_carga_ods_ouvidoria.sh

Source:
http://www.centos.org/docs/5/html/5.2/Deployment_Guide/s2-autotasks-cron-configuring.html

Como usar o MongoDB (NoSQL e BigData) no PDI (Pentaho Data Integration) CE (Community Edition)

Pessoal,

Hoje precisei fazer algumas coisas com MongoDB e PDI (Pentaho Data Integration) CE (Community Edition) em um projeto e resolvi compartilhar algumas coisas básicas que podem ajudar outros.

Vamos lá:

1) Instalar o mongodb no Mac.

MacBook-Air-de-Caio:config caiomsouza$ sudo port install mongodb
Password:
--->  Computing dependencies for mongodb
--->  Dependencies to be installed: boost bzip2 icu python27 db46 db_select python_select libpcap pcre scons snappy lzo2 v8
--->  Fetching archive for bzip2

2) Iniciar o serviço do MongoDB no Mac

Crie uma pasta para o local do banco de dados, no meu caso ficou  /Users/caiomsouza/mongodb/data/

Execute no terminal o comando abaixo:

MacBook-Air-de-Caio:config caiomsouza$ mongod --dbpath /Users/caiomsouza/mongodb/data/

Log:
Fri Jun 14 15:03:52.742 [initandlisten] MongoDB starting : pid=6040 port=27017 dbpath=/Users/caiomsouza/mongodb/data/ 64-bit host=MacBook-Air-de-Caio.local
Fri Jun 14 15:03:52.743 [initandlisten] ...


3) Abrir o console

MacBook-Air-de-Caio:mongodb caiomsouza$ mongo

MongoDB shell version: 2.4.4
connecting to: test
Welcome to the MongoDB shell.
For interactive help, type "help".

4) Criar um banco de dados chamado it4biz

> use it4biz;
switched to db it4biz

5) Criar uma coleção (collection) chamada Associados e inserir um registro

> db.Associados.insert({ome: "Caio", idade: 29});

6) Fazer uma consulta nessa coleção

> db.Associados.find();
{ "_id" : ObjectId("51bb5b9852569aa700ef9964"), "ome" : "Caio", "idade" : 29 }

7) Criar o banco de dados it4biz_output

> use it4biz_output;
switched to db it4biz_output

8) Criar uma coleção Teste e inserir um registro, e fazer uma consulta

> db.Teste.insert({ome: "Teste", idade: 40});
> db.Teste.find();
{ "_id" : ObjectId("51bb5d6252569aa700ef9965"), "ome" : "Teste", "idade" : 40 }

9) Agora é hora de usar o PDI para fazermos um exemplo bem simples, ler os dados do banco it4biz e gravar no banco it4biz_output como mostrado no exemplo abaixo, para facilitar sua vida baixe o exemplo (it4biz_mongodb_exemplo_input.ktr) clicando aqui.



Figura 1: Exemplo real criado pela IT4biz de leitura de dados no MongoDB (banco it4biz) e gravação em uma segunda base de dados (banco it4biz_output).

Figura 2: Configuração do Componente MongoDB Input

                                Figura 3: Configuração do Componente MongoDB Input


                             Figura 4: Configuração do Componente MongoDB Output



10) Após criar a transformação é a hora de executar e quando você fizer isso não pode dar erro conforme mostrado na primeira figura, feito isso é necessário verificar se deu certo.

Conforme mostrado na imagem abaixo é possível verificar que a linha foi lida do banco it4biz e gravada no banco it4biz_output


Outras imagens de outros testes realizados.




Alguns links utilizados para o tutorial: