O título é uma típica aliteração em inglês, “dedaom ov dedeidadam”. Além de ser mais diverto (fale em voz alta, para ver), em Português ele não tem lá muito sentido:

A Aurora da Represa de Dados

Essa foi uma idéia que nasceu durante um almoço que eu tive com o grande Flávio Daher, da PRODESP, em 7 de junho de 2017.

E ela é muito simples. ;-)

O que é um Data Lake? É só um reservatório no qual desaguam dados. Ele não agrega valor, per si, mais do que uma caixa d’água agrega valor a uma casa. Para que os dados que estão ali forneçam alguma vantagem competitiva, eles precisam ser bombeados para fora, tratados e levados para o consumo do usuário final. Por fim, este o cliente final usa a água de dados para cozinhar, lavar, produzir etc. A lista de metáforas hídricas é interminável, hehe.

Jogávamos conversa fora, Eu e o Flávio, brincando e troçando com essa idéia, quando o Flávio comentou:


É, mas os dados para terem algum valor, alguma utilidade, não podem ficar sentados ali, parados, eles têm que girar, que produzir algo, como numa represa…


Ele mal terminou de falar e eu congelei. Foi automático: represa de dados!!!

SHAZAM!!!!

AAAAHHHHHHHHH!!!!!

Ele ficou rindo e eu fiquei pulando e sacudindo os braços, berrando que nem um doido varrido, aaaaaaaaaaahhhhhhhh aaaaaaaaaaahhhhhhhh aaaaaaaaaaahhhhhhhh DATA DAM!!! DATA DAM!!!!

E foi assim. No meio do restaurante. Verdade! :-D Dentro da minha cabeça, ao menos. (Por fora eu fiquei olhando para o nada, mas isso não é engraçado…)

Então é isso: se você tiver algo mais importante para fazer agora, vá. Se não, pode ficar, porque o que vem a seguir é uma genuína e autêntica viagem na maionese (tm). Nem precisa de muito café para ficar: vai ser rapidinho.

What The Devil is a Data Dam?

E que diabos é uma represa de dados? No quê ela difere de um “lago de dados”?

Vista de Itaipu, uma das maiores usinas hidrelétricas do mundo.
  • Uma represa é feita para acumular água. Logo, semelhantemente mas ao mesmo tempo diferentemente de um Data Lake, uma Data Dam acumula um fluxo de água que inunda a área ao redor, que sobe de nível continuamente. Ainda que um lago evoque a imagem de rios formando um corpo hídrico maior, de dados acumulando-se em um ponto central, mais baixo que os OLTPs, uma represa evoca uma idéia de estrutura humana, construída para domar o poder das águas. É uma analogia muito mais forte;
  • Um lago pode ser consumido ou usado para fins domésticos. Não se bebe a água de um lago, mas apenas “pescamos” nele ou usamos porções modestas do líquido disponível, em escala doméstica. Uma represa, não: tudo é grande, maior que o Homem.
  • Um lago é uma obra da Natureza, que está lá e só. Quando muito, um lago artificial é feito para emular a Natureza, em geral para dar a sensação de se estar na Natureza. Em uma represa, não: a água que ali ficou apresada está lá para trabalhar por nós;
  • Um lago produz, quando muito, água potável e viveiros de aves e peixes. Uma repressa produz energia elétrica. É de represas hidrelétricas que o nosso país puxa um insumo indispensável para funcionar, diariamente, continuamente.
  • O poder de uma represa é muito superior a de um lago, e mais: é um poder plácido, contemplativo, mas de imenso potencial para o bem, se usada corretamente, e para a destruição, se liberado de uma vez;
  • De onde vem o poder de uma represa? Uma roda d’água, uma turbina, um moinho… Esses termos servem para ilustrar como os dados podem ser usados para alimentar de energia a Economia da Informação, a era em que estamos entrando.
Usando água para gerar energia elétrica.

Levando essa analogia mais longe ainda, podemos inventar que as equipes que montam refinarias de dados são equipes-turbinas, pois são elas que convertem aquele potencial preso nos dados crus em insumo para tudo. Tal como energia elétrica, que serve para tudo! Desde cozinhar, produzir e lavar, até qualquer outra coisa, já que eletrecidade, hoje, é mais versátil que a água. Diabos, com energia suficiente podemos até produzir água do ar!


Hmmm… Não… São equipes de “engenheiros hidáudicos” (mistura de hidráulico com dados). Daí, cada ETL que disponibiliza dados para o consumo é que é uma turbina. Logo, seriam ETL-Turbina. Extração-Turbinação-Carga? Extração-Turbina-Transmissão? Extração-Turbina-Consumo, sim, daí mantemos ETC e adotamos um novo significado. :-) Hoje eu tô a todo vapor! Affff! Vapor!!! :-D


E como isso se traduz em softwares e processos?

Nada de novo, aí: da mesma forma que em todas as outras analogias. O termo é só uma outra metáfora para as coisas que já existem há dez, vinte anos: um repositório de dados que alimenta o trabalho de uma organização. A novidade, mesmo, é forma de encarar, as imagens que ela evoca, muito mais poderosas e versáteis que um mero lago de dados.

Nothing But The BICC

E como funcionam “as coisas que já existem”? Melhor dizendo, como podem funcionar?

Como um BICC.

BICC é a sigla em Inglês para Centro de Competência de Inteligência de Negócios. Um BICC é como um departamento-mercearia: o cliente chega, vai até o balcão e pede alguma coisa – um dataset. Um dataset de tal e qual conformação, com esta e aquela agregação, que possa ser consumido por uma aplicação X para fazer Y – um conjunto de dados qualquer.

Daí o cara do balcão pode apontar o cliente para um produto qualquer, que já está na prateleira, e explicar como usá-lo. Ou pode se virar para dentro e berrar “Oh pá! Cá está um gajo a pediere um dataset de bugalhos! Faças e tragas cá, já!”

Tenho amigos, ídolos, em Portugal. Pelamordedeus, é só uma brincadeira com a nossa cultura!

Dali um tempo sai um moleque com o novo dataset, quentinho, que o cliente põe embaixo do braço (acidentalmente tostando o sovaco, kkkk) e vai-se embora feliz. Logo atrás dele entra outro cliente e o processo se reinicia: se o que este novo cliente precisa já existe pronto, ele pega e sai com ele, na hora; se não, espera um pouco e alguém da mercearia prepara especialmente para ele. Aos poucos, vai se acumulando uma lista de coisas já realizadas, como um catálogo de produtos.

Na minha opinião, uma Data Dam é uma boa metáfora para um BICC – se vocês mesmo questão de achar uma analogia. É uma estrutura que acumula água (dados) continuamente, que pode então ser usada para rodar turbinas (datasets) que vão alimentar algo com energia (resolver um problema.) Sempre que alguém precisa de tensão (voltagem) e frequência diferente, o time de engenheiros prepara uma nova turbina e instala um nova linha de eletricidade (ETC – Extração para Turbina e Consumo, hehe.)

Levando a analogia às últimas consequências, um cliente pode pedir os dados crus. Para atender essa demanda basta que o operador da represa abra as comportas de by-pass e está feito: lá fora vai aparecer toda água que nosso cliente puder consumir, tratar, usar como bem entender. Mais uma vez extrapolando, se as comportas forem completamente escancaradas, tudo rio abaixo será destruído. Essa é outra boa metáfora: inundação de dados não produz valor, apenas destrói o que já existe.

Novo Mesmo?

Aparentemente, outros já chegaram no termo ou perto dele. Por exemplo, tem o blog Big Data Dam/:

Página Sobre do blog Big Data Dam.

E tem até algum componente chamado Data Dam, para alguma coisa chamda Rhino:

Componente Data Dam do projeto Gafanhoto, para o Rhino. Eita…

Fora isso, não achei nada de muito significativo, de modo que pode ser que desta vez eu tenha criado algo ainda inédito.

Conclusão

Sorria: você acabou de testemunhar o nascimento de uma nova buzzword:

The Data Dam!!

Acabou, é só isso mesmo. O que virá a seguir, só Deus sabe. ;-)


Eu dedico este post à minha querida mãe, que hoje, 18 de julho de 2017, está completando 80 anos. Feliz Aniversário, Mãe! ;-)

Anúncios

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s