The Dawn of The Data Dam!

O título é uma típica aliteração em inglês, “dedaom ov dedeidadam”. Além de ser mais diverto (fale em voz alta, para ver), em Português ele não tem lá muito sentido:

A Aurora da Represa de Dados

Essa foi uma idéia que nasceu durante um almoço que eu tive com o grande Flávio Daher, da PRODESP, em 7 de junho de 2017.

E ela é muito simples. ;-)

O que é um Data Lake? É só um reservatório no qual desaguam dados. Ele não agrega valor, per si, mais do que uma caixa d’água agrega valor a uma casa. Para que os dados que estão ali forneçam alguma vantagem competitiva, eles precisam ser bombeados para fora, tratados e levados para o consumo do usuário final. Por fim, este o cliente final usa a água de dados para cozinhar, lavar, produzir etc. A lista de metáforas hídricas é interminável, hehe.

Jogávamos conversa fora, Eu e o Flávio, brincando e troçando com essa idéia, quando o Flávio comentou:


É, mas os dados para terem algum valor, alguma utilidade, não podem ficar sentados ali, parados, eles têm que girar, que produzir algo, como numa represa…


Ele mal terminou de falar e eu congelei. Foi automático: represa de dados!!!

SHAZAM!!!!

AAAAHHHHHHHHH!!!!!

Ele ficou rindo e eu fiquei pulando e sacudindo os braços, berrando que nem um doido varrido, aaaaaaaaaaahhhhhhhh aaaaaaaaaaahhhhhhhh aaaaaaaaaaahhhhhhhh DATA DAM!!! DATA DAM!!!!

E foi assim. No meio do restaurante. Verdade! :-D Dentro da minha cabeça, ao menos. (Por fora eu fiquei olhando para o nada, mas isso não é engraçado…)

Então é isso: se você tiver algo mais importante para fazer agora, vá. Se não, pode ficar, porque o que vem a seguir é uma genuína e autêntica viagem na maionese (tm). Nem precisa de muito café para ficar: vai ser rapidinho.

What The Devil is a Data Dam?

E que diabos é uma represa de dados? No quê ela difere de um “lago de dados”?

Vista de Itaipu, uma das maiores usinas hidrelétricas do mundo.
  • Uma represa é feita para acumular água. Logo, semelhantemente mas ao mesmo tempo diferentemente de um Data Lake, uma Data Dam acumula um fluxo de água que inunda a área ao redor, que sobe de nível continuamente. Ainda que um lago evoque a imagem de rios formando um corpo hídrico maior, de dados acumulando-se em um ponto central, mais baixo que os OLTPs, uma represa evoca uma idéia de estrutura humana, construída para domar o poder das águas. É uma analogia muito mais forte;
  • Um lago pode ser consumido ou usado para fins domésticos. Não se bebe a água de um lago, mas apenas “pescamos” nele ou usamos porções modestas do líquido disponível, em escala doméstica. Uma represa, não: tudo é grande, maior que o Homem.
  • Um lago é uma obra da Natureza, que está lá e só. Quando muito, um lago artificial é feito para emular a Natureza, em geral para dar a sensação de se estar na Natureza. Em uma represa, não: a água que ali ficou apresada está lá para trabalhar por nós;
  • Um lago produz, quando muito, água potável e viveiros de aves e peixes. Uma repressa produz energia elétrica. É de represas hidrelétricas que o nosso país puxa um insumo indispensável para funcionar, diariamente, continuamente.
  • O poder de uma represa é muito superior a de um lago, e mais: é um poder plácido, contemplativo, mas de imenso potencial para o bem, se usada corretamente, e para a destruição, se liberado de uma vez;
  • De onde vem o poder de uma represa? Uma roda d’água, uma turbina, um moinho… Esses termos servem para ilustrar como os dados podem ser usados para alimentar de energia a Economia da Informação, a era em que estamos entrando.
Usando água para gerar energia elétrica.

Levando essa analogia mais longe ainda, podemos inventar que as equipes que montam refinarias de dados são equipes-turbinas, pois são elas que convertem aquele potencial preso nos dados crus em insumo para tudo. Tal como energia elétrica, que serve para tudo! Desde cozinhar, produzir e lavar, até qualquer outra coisa, já que eletrecidade, hoje, é mais versátil que a água. Diabos, com energia suficiente podemos até produzir água do ar!


Hmmm… Não… São equipes de “engenheiros hidáudicos” (mistura de hidráulico com dados). Daí, cada ETL que disponibiliza dados para o consumo é que é uma turbina. Logo, seriam ETL-Turbina. Extração-Turbinação-Carga? Extração-Turbina-Transmissão? Extração-Turbina-Consumo, sim, daí mantemos ETC e adotamos um novo significado. :-) Hoje eu tô a todo vapor! Affff! Vapor!!! :-D


E como isso se traduz em softwares e processos?

Nada de novo, aí: da mesma forma que em todas as outras analogias. O termo é só uma outra metáfora para as coisas que já existem há dez, vinte anos: um repositório de dados que alimenta o trabalho de uma organização. A novidade, mesmo, é forma de encarar, as imagens que ela evoca, muito mais poderosas e versáteis que um mero lago de dados.

Nothing But The BICC

E como funcionam “as coisas que já existem”? Melhor dizendo, como podem funcionar?

Como um BICC.

BICC é a sigla em Inglês para Centro de Competência de Inteligência de Negócios. Um BICC é como um departamento-mercearia: o cliente chega, vai até o balcão e pede alguma coisa – um dataset. Um dataset de tal e qual conformação, com esta e aquela agregação, que possa ser consumido por uma aplicação X para fazer Y – um conjunto de dados qualquer.

Daí o cara do balcão pode apontar o cliente para um produto qualquer, que já está na prateleira, e explicar como usá-lo. Ou pode se virar para dentro e berrar “Oh pá! Cá está um gajo a pediere um dataset de bugalhos! Faças e tragas cá, já!”

Tenho amigos, ídolos, em Portugal. Pelamordedeus, é só uma brincadeira com a nossa cultura!

Dali um tempo sai um moleque com o novo dataset, quentinho, que o cliente põe embaixo do braço (acidentalmente tostando o sovaco, kkkk) e vai-se embora feliz. Logo atrás dele entra outro cliente e o processo se reinicia: se o que este novo cliente precisa já existe pronto, ele pega e sai com ele, na hora; se não, espera um pouco e alguém da mercearia prepara especialmente para ele. Aos poucos, vai se acumulando uma lista de coisas já realizadas, como um catálogo de produtos.

Na minha opinião, uma Data Dam é uma boa metáfora para um BICC – se vocês mesmo questão de achar uma analogia. É uma estrutura que acumula água (dados) continuamente, que pode então ser usada para rodar turbinas (datasets) que vão alimentar algo com energia (resolver um problema.) Sempre que alguém precisa de tensão (voltagem) e frequência diferente, o time de engenheiros prepara uma nova turbina e instala um nova linha de eletricidade (ETC – Extração para Turbina e Consumo, hehe.)

Levando a analogia às últimas consequências, um cliente pode pedir os dados crus. Para atender essa demanda basta que o operador da represa abra as comportas de by-pass e está feito: lá fora vai aparecer toda água que nosso cliente puder consumir, tratar, usar como bem entender. Mais uma vez extrapolando, se as comportas forem completamente escancaradas, tudo rio abaixo será destruído. Essa é outra boa metáfora: inundação de dados não produz valor, apenas destrói o que já existe.

Novo Mesmo?

Aparentemente, outros já chegaram no termo ou perto dele. Por exemplo, tem o blog Big Data Dam/:

Página Sobre do blog Big Data Dam.

E tem até algum componente chamado Data Dam, para alguma coisa chamda Rhino:

Componente Data Dam do projeto Gafanhoto, para o Rhino. Eita…

Fora isso, não achei nada de muito significativo, de modo que pode ser que desta vez eu tenha criado algo ainda inédito.

Conclusão

Sorria: você acabou de testemunhar o nascimento de uma nova buzzword:

The Data Dam!!

Acabou, é só isso mesmo. O que virá a seguir, só Deus sabe. ;-)


Eu dedico este post à minha querida mãe, que hoje, 18 de julho de 2017, está completando 80 anos. Feliz Aniversário, Mãe! ;-)

Anúncios

Cheiro de Data Mining

Em 31/12/2016 eu passei na Droga Raia da Alfonso Bovero, que fica em frente ao Pão de Açucar. Estamos na Zona Oeste de São Paulo, um bairro classe média.

Essa é a dita cuja que lançou a moda.

Peguei o que fui buscar e passei no caixa. Lá, a atendente me recepcionou:

– Informe seu CPF, por favor.

Não notou nada?

Claro que não, que cabeça a minha! Deixe-me contextualizar melhor.

O governo estadual de São Paulo instituiu um programa de rebate de impostos. De maneira resumida, funciona assim: ao fazer qualquer compra, você registra o cupom fiscal no seu CPF. Quando esse cupom é processado pela Secretaria da Fazenda do Estado, um pouco dos impostos dessa nota são computados para você. Daí, em certas épocas do ano você pode sacar esse crédito e levar o dinheiro embora, para usar como bem entender.

A coisa se espalhou e agora outros estados e até cidades adotaram uma prática semelhante. Eu sei que existe um programa análogo, por exemplo, na cidade do Rio de Janeiro, na prefeitura de São Paulo, em Brasília e no Paraná.

Vai daí que, pela cidade inteira, o tempo todo, ouvimos os caixas perguntando:

  • Deseja informar seu CPF?

O que aconteceu naquela véspera de ano novo foi uma sutil mas perceptiva mudança na pergunta. Até então era dito:

  • Deseja informar seu CPF?

Naquele dia me disseram:

  • Informe seu CPF, por favor.

Ali! Notaram? Eles trocaram o deseja? por informe!.

Isso significa que passaram a forçar a coleta do CPF. Eu não tinha mais a opção, não queriam saber se eu queria ou não: informe!

Como eu já sou macaco velho de BI, que entre outras coisas testemunhou o nascimento do Cartão Mais, do Pão de Açucar, eu fiquei de orelhas em pé na hora que o verbo habitual não deu as caras.

Só que além de macaco velho, eu sou um cientista, com o péssimo hábito de só acreditar em fatos confirmados.

E eu confirmei isso: perguntei à caixa se ela havia recebido uma orientação, recentemente, para requisitar o CPF do cliente, ao invés de simplesmente perguntar se ele desejava informar o CPF para nota. A reação foi inesperada: com um sorriso de satisfação (porque alguém notou que ela estava fazendo algo novo ou certo?), ela afirmou que sim, que agora eles estavam registrando o CPF de todos os clientes, mesmo os que não queriam reembolso de impostos.

Ah, era muito para mim! Eu precisava saber mais!

“Porquê?”, eu perguntei. “Para contar quantos clientes passam na loja todo dia.”, foi a resposta. “Afinal”, ela continuou, “não dá para contar a quantidade de visitantes apenas pela quantidade de vendas, pois um cliente pode voltar várias vezes no mesmo dia.”

Eita preula! A mulher sabia mais de BI que muita gente da área!

Traduzindo: não apenas pediram a ela para fazer isso, e obviamente deram a fórmula – quais palavras usar, a frase exata – mas também explicaram a ela o por quê disso.

Venda por Cliente, por Dia, por Loja…

Te lembra alguma coisa?

Fa-Fe-Fi-Fo-Fum! Sinto Cheiro de Data Minum!

Tá, não rimou, mas vocês lembraram da música do gigante Willie, do Mickey e o Pé de Feijão. :-)

Fifi? Eu não conheço nenhuma Fifi…

Apenas se uma empresa ignorar o valor dessa informação é que ela vai deixar de coletar esses dados. Qualquer empresa que se preocupe em crescer e/ou faturar mais vai querer conhecer melhor sua clientela, como ela se comporta e o que pode ser feito para fidelizá-la, para fazer com que ela prefira ir comprar ali e não do outro lado da rua.


Esse é, talvez, o caso mais clássico de BI. Eu escrevi um post sobre ele, que você pode conhecer clicando aqui.


Conclusão obrigatória: tem que haver ali um trabalho de BI em andamento, já sendo implantando.

O que me leva a concluir isso é que eu não fiz uma pergunta fechada, do tipo que ela poderia ter respondido com sim ou não, e boas. Eu perguntei porquê e ela foi exata: para contar quantos clientes passam pela loja, por dia. Se fosse por algum outro motivo, fiscal por exemplo, dificilmente teriam dito algo a ela.


Eu escrevi o rascunho desse post em janeiro de 2017. Eu achei muita nóia minha, que eu estava vendo coisas, e resolvi botar o assunto para dormir enquanto tentava conseguir mais informações, algo que corroborasse minhas pirações.

Bom, eu decidi completar este post justamente por que eu consegui. Melhor dizendo, eu não consegui: conseguiram para mim. De uma hora para outra começaram a pulular situações iguais por todo canto: na hora de pagar não me perguntavam mais se eu queria, mas sim me pediam meu CPF. E não apenas em outras lojas da Droga Raia, mas em outras cadeias de farmácias e de outros tipos de loja!

O melhor de todos foi o que eu ouvi em uma Kalunga: “porque estamos pedindo o CPF? Ah, meu chefe falou que é porque senão não podemos efetuar trocas”. Não é, não.. Só que o chefe deve ter achado tão difícil explicar que deixou por isso mesmo. :-D

Conclusão

De repente, virou moda pedir o CPF. Aliás, pelo que este artigo de maio de 2016 fala, parece que virou um traço cultural. Talvez os lojistas nem estejam usando ou entendendo o que está acontecendo direito, mas sabem que é importante fazê-lo.

Eu vejo dois aspectos positivos nessa tendência:

  • O serviço que nos é prestado por todas essas empresas tende a ficar melhor. Ao longo do tempo, os esforços em sabermos quem somos e como nos atender melhor vai redundar em maior qualidade na nossa experiência de compra, em nossas interações comerciais. Isso é bom para nós, consumidores;
  • Até hoje ainda é difícil falar de BI em qualquer empresa e escapar da dobradinha base de dadosferramenta de visualização. Uma mudança cultural, que perpasse a nossa sociedade, vai abrir espaço para conversar sobre assuntos mais especializados, sobre temas mais sofisticados. Isso é excelente, porque atua para expandir o mercado de BI e as oportunidades. Uma coisa obrigatória que vem com a identificação do cliente é um Armazém de Dados. Se alguém estava em dúvida sobre sua necessidade, isso vai ajudar a reduzi-las, quiçá eliminá-las.
1: Pão de Açucar, 2: Drogaria São Paulo, 3: Droga Raia.

E cá entre nós, já não era sem tempo de isso começar a acontecer! Afinal, levou uns 15 anos para o conceito do Cartão Mais atravessar a rua e chegar na farmácia! Como é que ainda existe quem não se preocupe com sua clientela?!

;-) Até a próxima!