Quando Nuton Gritou Eureqa

Eu tento fazer com que todo texto seja fleugmático: interessante, mas controlado, sem deixar a empolgação subir à cabeça. Mas esse aqui vai ser difícil. Quando eu assisti o vídeo eu só conseguia pensar OMGWTFOMGWTF…

Funciona assim.

Data Mining é uma coisa manual. Não é possível fazer uma garimpagem de dados automática, por poucas e boas razões:

  1. Um modelo que represente um negócio (sazonalidade de vendas, por exemplo) é necessariamente muito complexo, e possui, necessariamente, muitas variáveis;
  2. A busca da equação mais adequada é um problema de combinatória: combinar N famílias de equações, parametrizadas por M variáveis;
  3. Dado o número de variáveis e as famílias de equações que podem servir como modelo, o número de combinações explode e a busca, mesmo com supercomputadores (que não estão disponíveis para qualquer um, diga-se de passagem), seria demorada demais para ser útil.

Tradicionalmente o analista de Data Mining faz uma avaliação dos dados, seleciona uma amostra e vira-a de tudo quanto é lado, tentando enxergar alguma possível relação entre as variáveis. A partir daí ele propõe alguns modelos e, paulitanemente, vai limando os menos adequados e melhorando as propostas iniciais. Isso repete-se até que o erro diminua para um patamar definido pelo negócio, e então testa-se o modelo contra o restante dos dados. Se passar, vai para produção, onde ele identificará possíveis clientes, prováveis fraudadores, relacionamentos em atrito etc. etc. etc.

Não dá para automatizar isso e obter um resultado dentro dos próximos milhões de anos, mesmo para pequenos conjuntos de dados, mesmo com problemas simples. Não dá, é uma impossibilidade combinatória. Sempre será necessário algum tipo de guia humano para ajudar a máquina a sair do outro lado.

Um bom programador pode olhar para isso e retrucar que “dá para fazer um programa pré-carregado com os modelos mais comuns e conhecidos”. Isso reduziria a busca no espaço de soluções a um volume muito menor que o espaço inteiro (que pode muito bem ser infinito) e assim semi-automatizar Data Mining. Ok, mas pouco prático, já que cada caso é um caso, e isso reflete-se em cada modelo é um modelo.

Qualquer um que estudou Computação Natural pode olhar para essa situação e intuir a existência de uma solução com Algoritmos Genéticos ou Computação Evolutiva. Eu mesmo, que fui aluno de algumas dessas matérias, cheguei a pensar se não seria possível um motor de Data Mining automático. Nunca levei a idéia a sério, até porque eu sou fraquinho com Matemática.

Mas não é que algém levou? E é isso que o Eureqa, da empresa Nutonian, faz: ele gera uma série de possíveis modelos, aleatoriamente, e evolue-os até um certo erro pré-definido. Nada mais óbvio, nada mais simples. Mas eles fizeram!!!!

Assistam os vídeos deste link para ter uma idéia de como funciona. O exemplo dado no primeiro vídeo (Through the Wormhole with Morgan Freeman) é o mais claro. Eu ainda acho que ele usou um caso muito simples, muito banal (um pêndulo duplo), mas mesmo assim é impressionante!

Pode parecer pouca coisa, ou besteirol científico, mas o simples fato de já existir um produto que faz isso torna a possibilidade de Data Mining automático muito mais próxima da realidade!

Uau!

Leia mais…

Um Ponto Fita o Mundo

Sua empresa precisa de um Armazém de Dados? Vocês decidiram adotar Data Discovery, então seu primeiro impulso é esnobar respondendo “não, porque a ferramenta não precisa disso”. (Estou sendo sarcástico. ;-) )

Já faz algum tempo que eu publiquei um post sobre o assunto, no qual eu apresentava um argumento definitivo (na minha opinião) a favor da adoção de Armazém de Dados por qualquer empresa que deseje investir em BI. Não tenho nada acrescentar àquele argumento, mas recentemente cheguei a uma outra interpretação e pensei se não seria bacana dividi-la com vocês.

Eu sou formado em Física. Um dos jargões que aprendemos na faculdade é o verbo “fitar”, um estrangeirismo a partir do verbo inglês to fit. Em português podemos usar ajustar ou encaixar mas, como bons brasileiros, falamos fitar e boas.

Em Física queremos explicar a Naturza e por isso boa parte do nosso trabalho é, a partir da observação de um fenômemo, escolher uma função matemática para descrever esse fenômemo – esculpir um modelo matemático da realidade – e tentar encaixar a função nos dados experimentais. Quando nossa função – nosso modelo – encaixa-se sobre os dados, sabemos que ela serve para explicar a realidade, até onde nossos dados experimentais chegam. Todas as fórmulas da Física que você aprendeu na escola são resultado desse trabalho. Seja a Lei da Gravitação Universal, seja o Princípio da Conservação da Energia ou as Leis de Maxwell, tudo, tudo decorrente do teste de modelos matemáticos contra a realidade.

Tentar encaixar a função nos dados experimentais é, você adivinhou, fitar uma curva. A figura abaixo é um exemplo clássico: uma reta fitando os pontos.

Exemplo de uma reta "fitando" os pontos. Será que não existe nada melhor?

Exemplo de uma reta “fitando” os pontos. Será que não existe nada melhor?

E cá entre nós, ô fitizinho ruim! Me parece que uma Gausiana e uma reta modulando uma quádrica dá mais certo… Não acham? ;-)

BI vs. To Fit

Bom, na minha opinião (sempre!), Inteligência de Negócios é a administração científica de uma empresa, é o processo de levantar hipóteses e testá-las, e usar o resultado para decidir entre uma ação ou outra.

Uma forma diversa de falar “testar hipóteses” é “encaixar uma fórmula a um conjunto de pontos”. Em bom fisiquês, é fitar uma função num experimento. Se você quiser ir mais longe ainda, é a criação de um modelo matemático para explicar a realidade. Mas aí também é pedir demais da TI…

Voltando, pergunta retórica: que função você pode fitar em um experimento que coletou a medida de apenas um ponto?

Um ponto não fita nada. Ou melhor: fita tudo!

Um ponto não fita nada. Ou melhor: fita tudo!

Esse ponto pode ser qualquer coisa, medida instantâneamente. Ou seja, uma medida no momento e mais nada. Como as vendas de hoje, ou o total de pedidos de suporte, o quantos chamados um empregado abriu… Qualquer grão, mas em um único momento no tempo.

Oras, se você mediu seu experimento apenas uma vez – uma única vez – então você tem apenas UM ponto. Quem lembra das aulas de geometria deve se lembrar do lema “uma reta é determinada por dois pontos”. Com um só ponto você não define nada, absolutamente e rigorosamente NADA. Qualquer uma das funções ilustradas pelas linhas coloridas no gráfico acima pode ser ajustadas para passar sobre o ponto medido. Não podemos afirmar nada sobre aquele pontinho.

E este é precisamente o fulcro: como é que vamos testar uma hipótese contra um conjunto de dados que possui uma só medida? Não vamos! Não é possível fitar nada a um conjunto que tenha só um ponto!

Colocada de outra forma, pode-se dizer que é possível fitar um mundo de teorias e hipóteses em um ponto! Não dá para negar nenhuma delas em favor de outra! Qualquer modelo pode explicar aquele ponto!

Agora, se formos adiante e, de tempos em tempos, repetirmos o experimento e coletarmos um novo ponto, teremos uma evolução daquela variável (ou conjunto de) ao longo do tempo. Podemos ver o que aconteceu até agora e tentar enter como aconteceu dessa forma, e talvez o que vai acontecer a seguir.

Agora sim: com mais pontos podemos ver como o sistema se comporta.

Agora sim: com mais pontos podemos ver como o sistema se comporta.

O gráfico acima conta o final da história: para entender o que está acontecendo no meu sistema eu preciso de mais pontos. Só acumulando medidas do sistema ao longo do tempo é que podemos testar e descartar ou confirmar hipóteses.

E um Armazém de Dados é o sub-sistema da disciplina BI que resolve essa demanda por informação temporal. DW é mais que um banco de dados ou um cluster Hadoop: é uma técnica de coleta organização de dados com vistas a análises futuras. Por isso usamos um DW para soluções de BI: para não ter que reinventar a roda e cometer todos os erros de novo, só para sair com um conjunto temporal de dados do outro lado.

Tempo Não É Tudo

Alguém menos informado pode sentir-se tentado a argumentar que não é preciso coletar dados ao longo do tempo se as variáveis de interesse não incluem o tempo. Por exemplo, “que perfil de mutuário tem mais chance de não pagar o empréstimo?” Basta eu montar o perfil dos Mutuários em atraso hoje para descobrir isso.

Bom, esse argumento tem dois grandes furos:

  1. Sem uma análise da relação ao longo do tempo você não pode dizer que variável causou que consequência. Em termos técnicos, a ausência do tempo proíbe quase sempre a determinação do nexo causal;
  2. Sem uma análise ao longo do tempo você não tem como dizer se o valor medido é um outlier ou é o valor normalmente encontrado para aquela variável.

Imagine a consequência de conceder mais empréstimos justamente para o maior caloteiro, só por que, por acaso, conseguiu pagar a dívida em dia no mês passado, enquanto que o melhor pagador se atrasou para chegar ao banco!

Não há escapatória: até mesmo para saber que uma relação é constante no tempo é preciso analisá-la ao longo do tempo.

Conclusão

Resumindo, você precisa armazenar histórico dos dados da sua empresa porque “um ponto não fita nada!”

Explicar para alguém porque um DW é necessário em projetos de BI, usando só uma frase, é uma coisa bem difícil. Primeiro precisamos entender que BI é, resumidamente, a tomada de decisão a partir do teste de hipóteses. Se aceitarmos esse fato (nem todos aceitam), ainda temos que entender que o teste de hipóteses é, na verdade, um trabalho de encaixar uma explicação matemática a uma realidade mensurada.

No fundo, não “precisamos” de DW. Precisamos é armazenar a evolução dos parâmetros da empresa ao longo do tempo. Podemos fazer isso de várias formas: um estagiário anotando valores em um papel de pão, ou uma planilha Excel, ou dumps de bases em um cluster Hadoop. Ocorre que, por acaso, DW é a tecnologia adequada para isso.

Se alguém te disser que você não precisa de DW para “fazer” BI, você vai acreditar?


Ah, em português fitar significa olhar fixamente.

Testando o Vertica

Já há alguns anos eu quero testar um banco de dados colunar. Desde o Pentaho Day 2014 eu fiquei muito curioso para brincar com o HP Vertica, mas não tinha tido o tempo (nem um banco com volume) suficiente para todo o trabalho que isso implica.

No final de 2014 eu consegui instalar uma máquina virtual com o Vertica 7.1.1 (em um Ubuntu Server 14.04.1.) Construí uma dúzia de transformações que copiaram todos os cubos de um DW em Postgres para esse Vertica. Configurei um BI Server 5.1 com as duas fontes de dados, e um esquema Mondrian para cada uma dessas fontes. Ontem em consegui fazer e tabular um experimento simples: usando o jPivot, abri o maior dos cubos (14.095.514 de linhas) e fiz uma exploração simples: abri e fechei cada uma das seis dimensões principais. Todas elas tinham entre um e três membros no nível hierárquico superior, exceto por uma dimensão data, que tinha 11 membros no nível do ano.

O Experimento

Fiz essas navegações logo após o boot do servidor, com cache vazio, e com um esquema (=banco) de cada vez. Capturei o log MDX e SQL do Mondrian para cada caso. Elas foram tão idênticas que foi possível comparar até mesmo o SQL gerado entre os dois experimentos. Como o Vertica é um Postgres colunar, o SQL era idêntico até a última vírgula, e isso facilitou a comparação.

Veja, eu não estava fazendo um estudo milimetricamente planejado. Eu só queria obter um sentimento da relação de performance entre as duas tecnologias. Logo, o resultado vai refletir o preparo do experimento. A informação será mínima, binária: em plataformas de hardware parecidas, qual base é mais rápida?

Tempo total para fazer a mesma coisa.

Tempo total para fazer a mesma coisa.

É o Vertica, sem sombra de dúvida. A máquina virtual do Vertica tinha 2GB de RAM e uma CPU – um quarto do meu i7 2.4GHz. A máquina do Postgres é a minha máquina real, com 16GB de RAM além de toda a CPU disponível. A máquina virtual estava desligada, de modo que minha CPU não estava particionada no momento do teste do Postgres.

O gráfico anterior mostra o tempo total para repetir a mesma operação com o mesmo cubo, usando bases diferentes. Já o gráfico abaixo compara cada uma das operações – que por acaso são 15 – usando uma escala logarítmica no eixo Y.

Tempo por operação nas duas tecnologias.

Tempo por operação nas duas tecnologias.

Curiosamente, e talvez até previsivelmente, o Vertica teve um desempenho uniformemente melhor que o Postgres em todas as operações que levavam mais tempo, mas perdeu feio nas operações M e N, que duraram menos de 50 ms. Destas operações, a M é o pior resultado do Vertica: 42 ms a 0 ms para o Postgres. Ou seja, uma operação que durou mais de 40 ms no Vertica foi tão rápida no Postgres que o log do Mondrian não conseguiu medir.

Lendo a documentação do Vertica eu vi um tópico que discute exatamente isso: consultas menores tendem a ter um overhead proporcionalmente maior que bancos relacionais.

Legal.

Em compensação, o Vertica foi mais rápido em tudo que levou mais de 50 ms. Em alguns casos, como o O, ele chega a ter mais de uma ordem de grandeza de vantagem – 22 vezes mais rápido no caso da operação O.

A Conclusão…

… é óbvia: o Vertica parece ser muito interessante para exploração OLAP de fatos com milhões de linhas. Sendo um cientista, eu estou perfeitamente ciente do risco que seria generalizar essa conclusão para um “logo ele será bom para tudo”. Existe um caso de uso no qual eu estou particularmente interessado, um relatório (PRD) tabular construído sobre esse mesmo cubo. Meus próximos testes vão tentar determinar se é uma vantagem usar Vertica ou não.

E eu aposto que é.

Feliz Ano Novo!!

O Que É Data Discovery – Conclusão

Depois de anos ouvindo falar sobre Data Discovery eu decidi descobrir o que era isso. Estudei e com o resultado desse estudo eu preparei uma série de dois artigos: O Que é Data Discovery e o presente post, O Que é Data Discovery – Conclusão. No meio eu acabei fazendo um novo artigo, O Que É Data Discovery – Interregno, que traz um reforço às idéias apresentadas no primeiro, e meio que limpa o caminho para este aqui.

Vou colocar aqui um breve retrospecto do primeiro artigo e contar um pouco da minha curta peregrinação por fóruns sobre Data Discovery (DD.) Vou apresentar opiniões de outras pessoas e finalmente colocar o meu ponto-de-vista, e a minha conclusão.

Como dizem nos EULAs da vida, segue o disclaimer: se vocês não gostarem do que leram (ou ainda vão ler), eu não posso fazer nada. Conquanto eu me refreie de ofender a inteligência de alguém, minha opinião é minha e eu faço o que eu quiser com ela. Beleza? ;-)

Recapitulação

Há anos eu ouço falar em Data Discovery, mas até hoje eu não encontrei nenhuma definição clara. Como eu tenho um fraco por coisas mal-explicadas, eu embarquei em uma aventura para conseguir essa resposta.

No meu primeiro post sobre o assunto, O que é Data Discovery?, eu relatei minha pesquisa, na web, sobre essa definição. Resumindo, eu encontrei uma definição, escrita por uma VP do SAS, que é essencialmente a mesma definição de Data Mining (pesadamente editado; acesse o post original para os textos completos:)

Data Discovery (aka ‘Knowledge discovery’): The detection of patterns in data.

Data Mining: The process of discovering patterns in large data sets.

Será que DD = DM? Responder sim à essa pergunta colocaria ferramentas de DD no mesmo nível de ferramentas como Enterprise Miner, SPSS, R ou Weka, o que definitivamente soaria estranho.

Li os sites de vários dos assumidos fornecedores de DD em busca de alguma definição, nem que fosse uma particular. De novo, nada. Consegui encontrar menções à DD, mas nunca uma explicação simples ou mesmo um link para tal explicação.

Por outro lado, eu descobri algumas coisas curiosas. Por exemplo, não raro ferramentas que nasceram como mera visualização de dados passaram a se anunciar como ferramentas de DD, numa ação de “rebranding” ou “reposicionamento”. Também fiquei com a sensação de que as expressões “belos gráficos”, “painéis interativos” e “self-service” estão associadas à DD, bem como o mantra de “independência de TI”. Relação explícita, mesmo, nenhuma.

A conclusão daquele post foi “Data Discovery é só uma buzzword.”

Na minha opinião era inaceitável concluir isso. Como então um segmento inteiro cresce em cima de uma expressão tão sedutora e ao mesmo tempo tão vazia? Tinha que haver mais! Até o Gartner reconhece o assunto! Diretores e presidentes de empresas não falam em outra coisa, e mesmo assim só existe vapor? Eu com certeza estava mal-informado. Alguém de dentro haveria de ter o conhecimento necessário!

Discussões no LinkedIn

Fui até o LinkedIn e procurei por grupos de BI e grupos específicos de DD. Achei dois:

Eu consegui me inscrever no primeiro, mas estou esperando até agora a aprovação para entrar no segundo:

Aguardando a autorização para participar até hoje...

Aguardando a autorização para participar até hoje…

Além disso, já que DD é tido como um assunto de BI, nada mais adequado que também procurar algo nos grupos de BI:

Não olhei nenhum grupo nacional simplesmente porque eu queria a maior audiência possível.

Daí eu escrevi o seguinte post:

I give up: what is Data Discovery?

I’ve read the Wikipedia entry (http://bit.ly/TVrYP6) and it is of no help: ‘Jill Dyche calls Data discovery ‘Knowledge discovery’ and defines it as: “[…]the detection of patterns in data. […] ‘. That means DD is defined as some opinion of the SAS VP Jill Dyche, which closely resembles Data Mining, which entry on Wikipedia (http://bit.ly/1nklO3n) says “is the computational process of discovering patterns in large data sets involving”. I googled for it a bit more and found more or less the same argument around, including a HBR blog entry by the SAS VP herself (http://bit.ly/1plnfCU).

I gave up looking for description or information on what DD is and went to the products demo and watched all the nifty corporate videos: Tableu, Spotfire, QlikView, MicroStrategy etc. etc. etc. Everyone of them claim A) they don’t need IT to give beautifull graphics B) no need for ANY kind of ETL processing, neither data cleansing, separate data stores (do they go for the data on the transactional systems?) However all of them just look like a downplayed SAS Enterprise Miner.

Some other questions I couldn’t find an answer:

– If all those products do the same, the same way, should I pick the cheapest?
– Do all those products run on COTS hardware?
– Do I need fast network for them to sift through the databases?
– If all of them prescinds data models and DWs, and are so easy to use, can I ditch the expensive BI and project management teams for a couple of cheaper guys?
– What do I do with bad data?
– How do they get to relate the right data around? I mean, how do they relate each field on each table on each database to the correct field on other table in other database? Aren’t there any risk of coming to a wrong conclusion?

So, what IS Data Discovery? How does a DD project look like? Are there requisites gathering or do you just go online, buy a license, download, install and start siphoning data? Or is it only Data Mining’ s new name?

Sorry to dump it all at once, but I’ve been hearing “DD” for quite some months by now and couldn’t find any answer (let it alone a good answer!) less…

Eu não vou traduzir tudo, mas os pontos centrais eram:

  • Eu fiz minha lição de casa e procurei a definição de DD pela web, mas não encontrei nada substancial;
  • Eu asssisti a todos os vídeos de demonstração das empresas assumidamente do nicho de DD e tudo que achei foram interfaces de exploração de dados, que eventualmente lembram o SAS Enterprise Miner;
  • Coloquei a questão, “o que é?”, junto a outras dúvidas, tais como o destino de dados sujos, a complexidade dos relacionamentos dos dados na origem, custos de infra-estrutura e a diferenciação de ferramentas;

Postei esse mesmo texto em todos os grupos. O grupo do Penny Crown nunca autorizou a publicação e o post está lá até hoje, aguardando ser publicado:

O grupo Penny Crown nunca autorizou a publicação da pergunta.

O grupo Penny Crown nunca autorizou a publicação da pergunta.

Tanto o DD Group quanto o Penny Crown eram minhas melhores apostas. Não consegui a inscrição no que pareceu ser o principal grupo de DD do LinkedIn, e no aparentemente segundo mais importante a publicação não foi autorizada. Isso me deixou realmente com o pé atrás: eram grupos-fantasmas? Não tinha ninguém cuidando? Minhas perguntas tocavam alguma ferida? Acho que eu nunca vou saber.

Bom, eu consegui resposta em três dos outros grupos: Pentaho BA, Open Source DW, e Successful BI Project Management. Vou dar uma passada nos comentários recebidos nos dois primeiros, antes de ir para a resposta que encerrou a minha busca.

Pentaho Business Analytics

É um grupo dedicado a Pentaho, então seria compreensível encontrar alguma opinião que diminuísse os outros fornecedores – os concorrentes, afinal. Eis as duas respostas que eu recebi:

Pé-no-chão, ainda que suspeito.

Pé-no-chão, ainda que suspeito.

Explorando as possibilidades do conceito.

Explorando as possibilidades do conceito.

A primeira, do Ties Blom, é bem seca: eu listara apenas fornecedores tradicionais e nenhum deles oferece nada daquilo que eu busco. Além disso, não existe opção que contorne ou evite o departamento de informática. Ele aposta que nenhuma dessas empresas conseguiria entregar essas promessas, que “It’s just a lot of salestalk” (em bom Português: é só conversa de vendedor.)

Já a segunda resposta é mais bem-intencionada: o David Hicks tenta ver um lado mais inovador no assunto todo, e divaga um pouco sobre o que talvez seja DD. Legal, mas não vi ali nada de novo. Ele tenta definir BI como uma série de relatórios estáticos (absurdo) e daí parte para sugerir que DD seja uma busca por padrões em dados. Que salada…

Open Source Data Warehousing

Um grupo de DW Open Source? DD parece uma coisa tão “de proprietário” que achava pouco provável receber alguma resposta, muito menos uma interessante.

Boas idéias para analogias!

Boas idéias para analogias!

Ele deu boas idéias para analogias – refinamento de informações, derretimento de dados etc. – mas foi na mesma direção dos outros dois: DD deve ser a mesma coisa que Data Mining, assim como mineração de ouro e exploração de ouro são praticamente o mesmo. Eu até gostei, mas não me ajudou.

Successful Business Intelligence Project Management

E daqui veio a resposta campeã. Veja que, a esta altura do jogo, eu já estava convencido de que Data Discovery é só uma buzzword dedicada a capturar a corações e mentes dos novatos em BI. Eu só não tinha, ainda, uma opinião do andar de cima. Até ali eu lera opiniões de técnicos e especialistas bem-informados, que também examinaram criticamente essa “nova tecnologia”. Claro que eu também tinha coisas mais sólidas como o rebranding do QlikView e a completa ausência de informação de qualidade em fontes como a Wikipedia, mas as pontas (a falta de evidência e o senso-comum) precisavam se tocar.

Quem teria a envergadura profissional, o alcance de liderança, que também houvesse examinado criticamente a oferta tecnológica representada pelo jargão Data Discovery?

Fabio You Poor Soul

Conheçam Elizabeth Barr, formada na University of Michigan, certificada em gestão de projetos pela Georgetown University. Ela foi DBA na Travelers e na Motorola Solutions, trabalhou como líder de equipe de DBA na AMOCO, arquiteta de dados corporativos da Associação de Estradas de Ferro dos EUA (Railinc), Vice-Presidente Assistente no Banco Chevy Chase e finalmente gerente de DW na Associação de Universidades de Medicina dos EUA.

O resumo da experiência dela diz “19+ years in IT at Fortune 500 companies and non-profit organizations”. Para não deixar dúvida sobre o que isso significa: mais de 19 anos em TI de empresas da lista Fortune 500, e organizações sem fins lucrativos. A Fortune 500 é uma lista das 500 maiores empresas do mundo, compilada pela revista Fortune ano a ano.

Não apenas ela é da área, mas tem uma posição de respeito e uma carreira séria.

Séria. Há, há.

Quero dizer, basta olhar seu perfil no LinkedIn para ver que ela é séria, e que teve seu trabalho reconhecido. O que eu queria dizer é que ela não é sisuda. A resposta dela começa assim: “Fábio, pobre alma.” Sacaram? Não botam fé? Vejam:

Elizabeth Barr esclarece a malta: "There is no spoon".

Elizabeth Barr esclarece a malta: “There is no spoon”.

Realmente, é preciso dizer mais? Ela encerrou a discussão de cima de quase duas décadas em empresas de respeito!

De novo, não posso traduzir tudo (é muita preguiça, admito.) Mas os pontos mais importantes da resposta dela são:

  1. Até 2010 todo mundo sabia que o “processo computacional de encontrar padrões em grandes massas de dados” chamava-se Data Mining, e que isso era 100% dependente de dados – mal-ajambrados, poluídos, corrompidos e bagunçados dados transacionais;
  2. A partir de 2010 “nós todos” passamos a saber que o “processo computacional de encontrar padrões em grandes massas de dados” chamava-se Data Discovery, mas…
  3. … continuamos precisando dos mesmos dados, que continuam se acumulando nos mesmos bancos de dados (relacionais ou não), e que continuam vindo sujos, tortos e faltando pedaços!!!
  4. Fiat Lux! Uma nova categoria de ferramentas surge! Moderna, poderosa, capaz de entregar “Data Discovery” = encontrar padrões em grandes massas de dados, com pouca dependência da TI, sem ETL, sem integração, sem dor, capaz de acabar com a fome mundial.

Séria!!! :-)

Você Não Está Sozinho

Ela conclui destacando que o mundo mudou, mas as coisas não mudaram tanto assim: dados ainda são dados, difícies de lidar e causadores de dor. Ferramentas são só isso: ferramentas, e pouca diferença faz se são de prateleira, bem modernas, ou feitas à mão. Segundo ela, o fato é que existe uma legião de gente “trabalhando furiosamente” para se manter em dia com as buzzwords, tentando prover qualquer ajuda que puderem dar a seus usuários de negócios na contínua busca por entendimento do negócios e por insights nestes mesmos negócios.

E ela diz com todas as palavras:

I can tell you this: These are all just buzzwords.

Conclusão

Desde o início eu tinha a impressão que Data Discovery, bem como Business Discovery, não passava de mais uma buzzword destinada a promover uma leva de ferramentas de visualização de dados. Como eu sempre me obrigo a demonstrar um mínimo civilizado de humildade, eu parti do pressuposto que eu não sabia de nada (ou apenas do mínimo) e saí à cata do significado, da definição do termo Data Discovery.

A premissa do trabalho era bem simples: eu quero achar o que está disponível ao usuário mais ou menos leigo. Eu desconsiderei trabalhos acadêmicos pelo simples fato que poucos sabem fazer uma busca no WoS – ou mesmo sabem que o WoS existe. Eu presumia que, se o conceito existe e está bem-definido, uma busca “de escritório” deveria encontrá-la.

Essa busca não trouxe nada substancial. Ou seja, Data Discovery aparentemente existia apenas na boca dos vendedores, e na dos clientes que repetem o que os vendedores dizem.

Ok, então eu fui incompetente para achar a definição de DD por meus próprios meios. Ainda descartando o lado acadêmico da coisa, me pareceu que o próximo passo era buscar ajuda. Perguntar por aí o que é que a baiana tem. Não foi a busca mais completa e detalhada: se o termo tivesse vida própria, não deveria ser preciso um hercúleo esforço para descobrir o que ele significava. Se fosse assim tão difícil, não deveria ser parte do dia-a-dia de BI ou TI.

Os poucos que se dignaram a me responder reforçaram a minha pressuposição (viés de confirmação?), até que uma profissional de alto calibre deitou no papel a definição presumida mas não reconhecida: é só uma buzzword.

Mesmo assim, me parece não dá para dizer que “Data Discovery” não existe. O que podemos afirmar com certeza é que ninguém assumiu a autoria do termo tal como ele vem sendo usada pelos vendedores de ferramentas de visualização de dados. O que esses vendedores querem dizer quando afirmam que tal ou tal ferramenta “faz” Data Discovery é que elas têm “uma forma mágica de vencer as dificuldades de qualquer projeto de BI, eliminando os problemas com a obtenção e tratamento dos dados”. O que o discurso de vendas dessas ferramentas prometem, no fundo, é eliminar o que o senso comum entende como a raiz dos incontáveis fracassos de projetos de BI: obter e preparar dados para análise.

Reparem, por favor, que eu não retiro de nenhum dos softwares mencionados nesses posts a grande qualidade e flexibilidade na apresentação e análise dos dados. Não há como contestar isso, e nem é preciso contestar. É uma grande sorte do mercado de BI que existam ferramentas diversas, com caracerísticas distintas e especializações variadas. Dispor de uma só ferramenta para tudo empobreceria nossas vidas.


O que eu vou levar para casa, e divido aqui para vocês fazerem o mesmo se quiserem, é a certeza de que NENHUMA ferramenta isenta-nos de capturar e arrumar os dados antes de examiná-los. Se Data Discovery são softwares cujos vendedores prometem isso, bom…

… você é livre para acreditar no que quiser. ;-)

Feliz Ano Novo!

Fim de Ano na Packt: Tudo a US$5,00!

Final de ano e, claro, a Editora Packt lançou uma promoção de Natal: qualquer livro por US$5,00!! A oferta é simples: até 6 de Janeiro de 2015, qualquer livro ou vídeo do site – qualquer um mesmo – está sendo vendida a US$5,00! É um desconto de no mínimo 30% se você pensar que os livros mais baratos começam em US$15,00.

Vocês já sabem que eu sou fã da Packt – eu até poderia completar minha coleção, mas francamente, eu já tenho tudo que eu poderia querer deles. Não tem UM que seja ruim! São todos excelentes, com um padrão editorial de alta qualidade, com autores que dominam totalmente seus assuntos.

Gastou tudo no Natal a ainda não conseguiu montar sua solução de (preencha com o software/hardware se sua preferência)? Relaxe: a Packt US$5,00 Book Bonanza (americanos…) vai te ajudar a fechar o ano com chave de ouro!

Porque Data Vault, Segunda Tomada

Já tem algum tempo que eu superei a – oh! – dúvida cruel acerca de adotar ou não um Data Vault. Para você não ter que ler minha epifania, que é longa pra dedéu, eu finalmente concluí que sim, adotar um Data Vault traz muitas vantagens reais. Com isso superado eu segui adiante e comecei a implantar Data Vaults em pequenos projetos experimentais e a ajudar amigos a implantar DVs em suas empresas. Até mesmo produzi um treinamento inédito para criar DVs usando apenas Software Livre.

Como todo bom neurótico, eu sempre acho que não fui muito claro, que sempre dá para melhorar – ou ao menos para simplificar. E olhem só o que eu encontrei: um vídeo sobre uma ferramenta muito interessante, o BIML. Neste vídeo, antes da demonstração do BIML propriamento dito (que é uma linguagem markup para BI), aparece um slide aí pelos 4’40”:

Snapshot do vídeo mostrando os bullets sobre Data Vault.

Snapshot do vídeo mostrando os bullets sobre Data Vault.

Ele sumaria os pontos que respondem à minha (antigamente eterna) – oh! – dúvida cruel: adotar ou não adotar um DV, e por quê, eis a questão.

Eu transcrevi e tentei traduzir os bullets acima:

Usando-se um modelo Data Vault, o Data Warehouse:

  • Absorve mudanças mais prontamente (mais ágil;)
  • Responde bem ao surgimento de novas origens de dados (construção incremental;
  • Gerenciamento histórico em fatias temporais inato (historiamento;)
  • Provê rastreamento completo até a fonte dos dados (auditabilidade;)
  • Cresce e adapta-se com impacto mínimo, sem silos (TCO reduzido;)
  • Integra, alinha e reconcilia os dados (integração corporativa;)
  • Rastreia, gerencia e reporta sobre situações excepcionais (provê um loop para feedback.)

Eu não consegui traduzir tudo – sobrou o “loop de feedback”. Eu achei que laço de retroalimentação não estaria ajudando. Mas enfim…

Cada um destes bullets precisaria ser provado para ser aceito, para ser válido, mas minha experiência nestes últimos 10 meses com Data Vault provou para mim todos esses pontos: tudo fica mais fácil, mais rápido, com mais qualidade e mais resiliente. Ainda não achei uma boa maneira de dividir essa prova com vocês, mas vocês sabem como são os neuróticos: uma hora eu vou descobrir, e voltar aqui para contar.

Até a próxima!

Primeira Edição do PenSaPUG foi um Sucesso!

Eu, pelo menos, adorei.

Imagine: uns 10 nerds, a maioria fanático por BI (e quase todos por Pentaho), soltos para bater-papo. Ontem valeu por alguns cursos. Fora ter ouvido idéias novas e ter conhecido projetos inovadores, ainda demos umas boas risadas!

Resumindo: 1) mal posso esperar pelo próximo e 2) precisamos montar um portal do PenSaPUG!!

Caio, você é um gênio! Parabéns!

CategoriasGeneralidades Tags:, , ,
Seguir

Obtenha todo post novo entregue na sua caixa de entrada.

Junte-se a 103 outros seguidores