Uma Ferramenta Para Cada Caso

Há algum tempo eu recebi, na rua, este folheto:

WD-40: muito mais que só um aerosol bonitinho.
WD-40: muito mais que só um aerosol bonitinho.

Quem diria, não? Eu cresci usando WD-40 para quase tudo – de matar formigas a efeito sonoro, passando por desengripante e, claro, anti-ferrugem (o nome é uma referência a deslocamento de água, versão 40.) Mas jamais imaginei que o fabricante do WD-40 oferecia uma linha de vários outros produtos. O folheto que mostra a famosa lata aerosol, mostra também latas de diferentes quantidades do mesmo produto e frascos de coisas como “lixa líquida” e
“graxa branca” (o fim das manchas, com o mesmo poder de lubrificação? Ui! :-D )

Mas, é só lubrificação! Como pode uma única empresa, detentora de um único produto famoso, ter uma quantidade de opções??

Respondo-vos eu: e daí? O que é que tem uma coisa a ver com outra? O que é que proibe a empresa que fabrica um produto multi-uso de ter outros produtos?

Existe uma certa tendência, em TI, a pensar nos nossos produtos como coisas abrangentes, que encompassam tudo. O inglês oferece uma expressão precisa para esse sentimento: one size fits all, ou seja, um tamanho serve para todos.


Será que os softwares e hardwares são desenvolvidos nas fornalhas amaldiçoadas de Mordor?

   Three Rings for the Elven-kings under the sky,
   Seven for the Dwarf-lords in their halls of stone,
   Nine for Mortal Men doomed to die,
   One for the Dark Lord on his dark throne.
   One Ring to rule them all. One Ring to find them,
   One Ring to bring them all and in the darkness bind them.


Mas estou digredindo.

Quem acompanha meu blog sabe que eu tenho uma fixação por propagandas de produtos que prometem fazer tudo com uma só ferramenta. Não tenho problemas com empresas que se prestam a servir tudo, ou one stop shops, mas com empresas que oferecem um único produto e afirmam que ele pode fazer tudo, que ele dispensa qualquer outro complemento.

Esse tipo de mensagem prejudica o cliente, o consumidor, por um motivo muito simples: todo mundo quer ouvir que seu problema tem uma solução fácil.

Mas em TI, e principalmente em BI, não existem soluções fáceis ou óbvias ou tão simples que um mané qualquer pode construir. Se fosse verdade, não teríamos tanta evidência anedótica de projetos que deram errado, de times que ouviram o canto da sereia “one-size” e depois precisaram recolher os cacos e recomeçar.

Pensem em lubrificação: uma coisa simples, só fazer escorregar mais facilmente. Agora pensem em quantas opções de lubrificantes existem. O que gera essa variedade? O uso, os materiais envolvidos e até a dinâmica dos corpos em atrito! Ou você nunca escorregou em um piso molhado que, pisado da forma certa, oferece firmeza?

E essa variedades de opções se estende por uma infinidade de assuntos – basta pensar em alguma coisa e você vai ver que não existe essa coisa de “one ring”, para nada.

E porque continuamos buscando isso em BI? Porque ainda queremos que isso seja verdade?

Não sei, mas o fato é que não é.

Conclusão

Como dito, eu já comentei e dei aqui vários exemplos de como forçar uma ferramenta em todas as funções pode ser um grande erro. Bom, eu tive oportunidade de conhecer melhor dois produtos semana passada, Alteryx e Tableau. Adivinhem a mensagem central?


Você só precisa desses dois produtos, mais nada.


Ai, ai, esse ramo não tem jeito, mesmo. Pelo visto, sempre que um fornecedor de BI puder, ele vai tentar reduzir tudo ao mínimo. Mas o cenário talvez esteja melhorando, afinal ouvi dizer pela primeira vez (fora o SAS, que sempre ofereceu um carrilhão de opções) que precisamos de dois produtos! Um para ETL/Analytics, outro para Visual Analytics.

Bom, de qualquer maneira, o fato é que eu ainda preciso estudar mais esses produtos para poder negar a afirmação do fornecedor. Por enquanto, pelo que eu vi, de fato cobrem muita coisa e não é impossível que sejam mesmo o único produto necessário…

… se você ignorar sistema operacional, bancos de dados, diagramação, modelagem matemática etc. etc. etc.

Ai, ai. ;-)


O ano está chegando ao fim. Os próximos posts falarão sobre alguns livros interessantes que li este ano e fecharão a série de soluções clássicas, apresentando o Cálculo Atuarial. Até lá!

O Que É Data Discovery – Conclusão

Depois de anos ouvindo falar sobre Data Discovery eu decidi descobrir o que era isso. Estudei e com o resultado desse estudo eu preparei uma série de dois artigos: O Que é Data Discovery e o presente post, O Que é Data Discovery – Conclusão. No meio eu acabei fazendo um novo artigo, O Que É Data Discovery – Interregno, que traz um reforço às idéias apresentadas no primeiro, e meio que limpa o caminho para este aqui.

Vou colocar aqui um breve retrospecto do primeiro artigo e contar um pouco da minha curta peregrinação por fóruns sobre Data Discovery (DD.) Vou apresentar opiniões de outras pessoas e finalmente colocar o meu ponto-de-vista, e a minha conclusão.

Como dizem nos EULAs da vida, segue o disclaimer: se vocês não gostarem do que leram (ou ainda vão ler), eu não posso fazer nada. Conquanto eu me refreie de ofender a inteligência de alguém, minha opinião é minha e eu faço o que eu quiser com ela. Beleza? ;-)

Recapitulação

Há anos eu ouço falar em Data Discovery, mas até hoje eu não encontrei nenhuma definição clara. Como eu tenho um fraco por coisas mal-explicadas, eu embarquei em uma aventura para conseguir essa resposta.

No meu primeiro post sobre o assunto, O que é Data Discovery?, eu relatei minha pesquisa, na web, sobre essa definição. Resumindo, eu encontrei uma definição, escrita por uma VP do SAS, que é essencialmente a mesma definição de Data Mining (pesadamente editado; acesse o post original para os textos completos:)

Data Discovery (aka ‘Knowledge discovery’): The detection of patterns in data.

Data Mining: The process of discovering patterns in large data sets.

Será que DD = DM? Responder sim à essa pergunta colocaria ferramentas de DD no mesmo nível de ferramentas como Enterprise Miner, SPSS, R ou Weka, o que definitivamente soaria estranho.

Li os sites de vários dos assumidos fornecedores de DD em busca de alguma definição, nem que fosse uma particular. De novo, nada. Consegui encontrar menções à DD, mas nunca uma explicação simples ou mesmo um link para tal explicação.

Por outro lado, eu descobri algumas coisas curiosas. Por exemplo, não raro ferramentas que nasceram como mera visualização de dados passaram a se anunciar como ferramentas de DD, numa ação de “rebranding” ou “reposicionamento”. Também fiquei com a sensação de que as expressões “belos gráficos”, “painéis interativos” e “self-service” estão associadas à DD, bem como o mantra de “independência de TI”. Relação explícita, mesmo, nenhuma.

A conclusão daquele post foi “Data Discovery é só uma buzzword.”

Na minha opinião era inaceitável concluir isso. Como então um segmento inteiro cresce em cima de uma expressão tão sedutora e ao mesmo tempo tão vazia? Tinha que haver mais! Até o Gartner reconhece o assunto! Diretores e presidentes de empresas não falam em outra coisa, e mesmo assim só existe vapor? Eu com certeza estava mal-informado. Alguém de dentro haveria de ter o conhecimento necessário!

Discussões no LinkedIn

Fui até o LinkedIn e procurei por grupos de BI e grupos específicos de DD. Achei dois:

Eu consegui me inscrever no primeiro, mas estou esperando até agora a aprovação para entrar no segundo:

Aguardando a autorização para participar até hoje...
Aguardando a autorização para participar até hoje…

Além disso, já que DD é tido como um assunto de BI, nada mais adequado que também procurar algo nos grupos de BI:

Não olhei nenhum grupo nacional simplesmente porque eu queria a maior audiência possível.

Daí eu escrevi o seguinte post:

I give up: what is Data Discovery?

I’ve read the Wikipedia entry (http://bit.ly/TVrYP6) and it is of no help: ‘Jill Dyche calls Data discovery ‘Knowledge discovery’ and defines it as: “[…]the detection of patterns in data. […] ‘. That means DD is defined as some opinion of the SAS VP Jill Dyche, which closely resembles Data Mining, which entry on Wikipedia (http://bit.ly/1nklO3n) says “is the computational process of discovering patterns in large data sets involving”. I googled for it a bit more and found more or less the same argument around, including a HBR blog entry by the SAS VP herself (http://bit.ly/1plnfCU).

I gave up looking for description or information on what DD is and went to the products demo and watched all the nifty corporate videos: Tableu, Spotfire, QlikView, MicroStrategy etc. etc. etc. Everyone of them claim A) they don’t need IT to give beautifull graphics B) no need for ANY kind of ETL processing, neither data cleansing, separate data stores (do they go for the data on the transactional systems?) However all of them just look like a downplayed SAS Enterprise Miner.

Some other questions I couldn’t find an answer:

– If all those products do the same, the same way, should I pick the cheapest?
– Do all those products run on COTS hardware?
– Do I need fast network for them to sift through the databases?
– If all of them prescinds data models and DWs, and are so easy to use, can I ditch the expensive BI and project management teams for a couple of cheaper guys?
– What do I do with bad data?
– How do they get to relate the right data around? I mean, how do they relate each field on each table on each database to the correct field on other table in other database? Aren’t there any risk of coming to a wrong conclusion?

So, what IS Data Discovery? How does a DD project look like? Are there requisites gathering or do you just go online, buy a license, download, install and start siphoning data? Or is it only Data Mining’ s new name?

Sorry to dump it all at once, but I’ve been hearing “DD” for quite some months by now and couldn’t find any answer (let it alone a good answer!) less…

Eu não vou traduzir tudo, mas os pontos centrais eram:

  • Eu fiz minha lição de casa e procurei a definição de DD pela web, mas não encontrei nada substancial;
  • Eu asssisti a todos os vídeos de demonstração das empresas assumidamente do nicho de DD e tudo que achei foram interfaces de exploração de dados, que eventualmente lembram o SAS Enterprise Miner;
  • Coloquei a questão, “o que é?”, junto a outras dúvidas, tais como o destino de dados sujos, a complexidade dos relacionamentos dos dados na origem, custos de infra-estrutura e a diferenciação de ferramentas;

Postei esse mesmo texto em todos os grupos. O grupo do Penny Crown nunca autorizou a publicação e o post está lá até hoje, aguardando ser publicado:

O grupo Penny Crown nunca autorizou a publicação da pergunta.
O grupo Penny Crown nunca autorizou a publicação da pergunta.

Tanto o DD Group quanto o Penny Crown eram minhas melhores apostas. Não consegui a inscrição no que pareceu ser o principal grupo de DD do LinkedIn, e no aparentemente segundo mais importante a publicação não foi autorizada. Isso me deixou realmente com o pé atrás: eram grupos-fantasmas? Não tinha ninguém cuidando? Minhas perguntas tocavam alguma ferida? Acho que eu nunca vou saber.

Bom, eu consegui resposta em três dos outros grupos: Pentaho BA, Open Source DW, e Successful BI Project Management. Vou dar uma passada nos comentários recebidos nos dois primeiros, antes de ir para a resposta que encerrou a minha busca.

Pentaho Business Analytics

É um grupo dedicado a Pentaho, então seria compreensível encontrar alguma opinião que diminuísse os outros fornecedores – os concorrentes, afinal. Eis as duas respostas que eu recebi:

Pé-no-chão, ainda que suspeito.
Pé-no-chão, ainda que suspeito.
Explorando as possibilidades do conceito.
Explorando as possibilidades do conceito.

A primeira, do Ties Blom, é bem seca: eu listara apenas fornecedores tradicionais e nenhum deles oferece nada daquilo que eu busco. Além disso, não existe opção que contorne ou evite o departamento de informática. Ele aposta que nenhuma dessas empresas conseguiria entregar essas promessas, que “It’s just a lot of salestalk” (em bom Português: é só conversa de vendedor.)

Já a segunda resposta é mais bem-intencionada: o David Hicks tenta ver um lado mais inovador no assunto todo, e divaga um pouco sobre o que talvez seja DD. Legal, mas não vi ali nada de novo. Ele tenta definir BI como uma série de relatórios estáticos (absurdo) e daí parte para sugerir que DD seja uma busca por padrões em dados. Que salada…

Open Source Data Warehousing

Um grupo de DW Open Source? DD parece uma coisa tão “de proprietário” que achava pouco provável receber alguma resposta, muito menos uma interessante.

Boas idéias para analogias!
Boas idéias para analogias!

Ele deu boas idéias para analogias – refinamento de informações, derretimento de dados etc. – mas foi na mesma direção dos outros dois: DD deve ser a mesma coisa que Data Mining, assim como mineração de ouro e exploração de ouro são praticamente o mesmo. Eu até gostei, mas não me ajudou.

Successful Business Intelligence Project Management

E daqui veio a resposta campeã. Veja que, a esta altura do jogo, eu já estava convencido de que Data Discovery é só uma buzzword dedicada a capturar a corações e mentes dos novatos em BI. Eu só não tinha, ainda, uma opinião do andar de cima. Até ali eu lera opiniões de técnicos e especialistas bem-informados, que também examinaram criticamente essa “nova tecnologia”. Claro que eu também tinha coisas mais sólidas como o rebranding do QlikView e a completa ausência de informação de qualidade em fontes como a Wikipedia, mas as pontas (a falta de evidência e o senso-comum) precisavam se tocar.

Quem teria a envergadura profissional, o alcance de liderança, que também houvesse examinado criticamente a oferta tecnológica representada pelo jargão Data Discovery?

Fabio You Poor Soul

Conheçam Elizabeth Barr, formada na University of Michigan, certificada em gestão de projetos pela Georgetown University. Ela foi DBA na Travelers e na Motorola Solutions, trabalhou como líder de equipe de DBA na AMOCO, arquiteta de dados corporativos da Associação de Estradas de Ferro dos EUA (Railinc), Vice-Presidente Assistente no Banco Chevy Chase e finalmente gerente de DW na Associação de Universidades de Medicina dos EUA.

O resumo da experiência dela diz “19+ years in IT at Fortune 500 companies and non-profit organizations”. Para não deixar dúvida sobre o que isso significa: mais de 19 anos em TI de empresas da lista Fortune 500, e organizações sem fins lucrativos. A Fortune 500 é uma lista das 500 maiores empresas do mundo, compilada pela revista Fortune ano a ano.

Não apenas ela é da área, mas tem uma posição de respeito e uma carreira séria.

Séria. Há, há.

Quero dizer, basta olhar seu perfil no LinkedIn para ver que ela é séria, e que teve seu trabalho reconhecido. O que eu queria dizer é que ela não é sisuda. A resposta dela começa assim: “Fábio, pobre alma.” Sacaram? Não botam fé? Vejam:

Elizabeth Barr esclarece a malta: "There is no spoon".
Elizabeth Barr esclarece a malta: “There is no spoon”.

Realmente, é preciso dizer mais? Ela encerrou a discussão de cima de quase duas décadas em empresas de respeito!

De novo, não posso traduzir tudo (é muita preguiça, admito.) Mas os pontos mais importantes da resposta dela são:

  1. Até 2010 todo mundo sabia que o “processo computacional de encontrar padrões em grandes massas de dados” chamava-se Data Mining, e que isso era 100% dependente de dados – mal-ajambrados, poluídos, corrompidos e bagunçados dados transacionais;
  2. A partir de 2010 “nós todos” passamos a saber que o “processo computacional de encontrar padrões em grandes massas de dados” chamava-se Data Discovery, mas…
  3. … continuamos precisando dos mesmos dados, que continuam se acumulando nos mesmos bancos de dados (relacionais ou não), e que continuam vindo sujos, tortos e faltando pedaços!!!
  4. Fiat Lux! Uma nova categoria de ferramentas surge! Moderna, poderosa, capaz de entregar “Data Discovery” = encontrar padrões em grandes massas de dados, com pouca dependência da TI, sem ETL, sem integração, sem dor, capaz de acabar com a fome mundial.

Séria!!! :-)

Você Não Está Sozinho

Ela conclui destacando que o mundo mudou, mas as coisas não mudaram tanto assim: dados ainda são dados, difícies de lidar e causadores de dor. Ferramentas são só isso: ferramentas, e pouca diferença faz se são de prateleira, bem modernas, ou feitas à mão. Segundo ela, o fato é que existe uma legião de gente “trabalhando furiosamente” para se manter em dia com as buzzwords, tentando prover qualquer ajuda que puderem dar a seus usuários de negócios na contínua busca por entendimento do negócios e por insights nestes mesmos negócios.

E ela diz com todas as palavras:

I can tell you this: These are all just buzzwords.

Conclusão

Desde o início eu tinha a impressão que Data Discovery, bem como Business Discovery, não passava de mais uma buzzword destinada a promover uma leva de ferramentas de visualização de dados. Como eu sempre me obrigo a demonstrar um mínimo civilizado de humildade, eu parti do pressuposto que eu não sabia de nada (ou apenas do mínimo) e saí à cata do significado, da definição do termo Data Discovery.

A premissa do trabalho era bem simples: eu quero achar o que está disponível ao usuário mais ou menos leigo. Eu desconsiderei trabalhos acadêmicos pelo simples fato que poucos sabem fazer uma busca no WoS – ou mesmo sabem que o WoS existe. Eu presumia que, se o conceito existe e está bem-definido, uma busca “de escritório” deveria encontrá-la.

Essa busca não trouxe nada substancial. Ou seja, Data Discovery aparentemente existia apenas na boca dos vendedores, e na dos clientes que repetem o que os vendedores dizem.

Ok, então eu fui incompetente para achar a definição de DD por meus próprios meios. Ainda descartando o lado acadêmico da coisa, me pareceu que o próximo passo era buscar ajuda. Perguntar por aí o que é que a baiana tem. Não foi a busca mais completa e detalhada: se o termo tivesse vida própria, não deveria ser preciso um hercúleo esforço para descobrir o que ele significava. Se fosse assim tão difícil, não deveria ser parte do dia-a-dia de BI ou TI.

Os poucos que se dignaram a me responder reforçaram a minha pressuposição (viés de confirmação?), até que uma profissional de alto calibre deitou no papel a definição presumida mas não reconhecida: é só uma buzzword.

Mesmo assim, me parece não dá para dizer que “Data Discovery” não existe. O que podemos afirmar com certeza é que ninguém assumiu a autoria do termo tal como ele vem sendo usada pelos vendedores de ferramentas de visualização de dados. O que esses vendedores querem dizer quando afirmam que tal ou tal ferramenta “faz” Data Discovery é que elas têm “uma forma mágica de vencer as dificuldades de qualquer projeto de BI, eliminando os problemas com a obtenção e tratamento dos dados”. O que o discurso de vendas dessas ferramentas prometem, no fundo, é eliminar o que o senso comum entende como a raiz dos incontáveis fracassos de projetos de BI: obter e preparar dados para análise.

Reparem, por favor, que eu não retiro de nenhum dos softwares mencionados nesses posts a grande qualidade e flexibilidade na apresentação e análise dos dados. Não há como contestar isso, e nem é preciso contestar. É uma grande sorte do mercado de BI que existam ferramentas diversas, com caracerísticas distintas e especializações variadas. Dispor de uma só ferramenta para tudo empobreceria nossas vidas.


O que eu vou levar para casa, e divido aqui para vocês fazerem o mesmo se quiserem, é a certeza de que NENHUMA ferramenta isenta-nos de capturar e arrumar os dados antes de examiná-los. Se Data Discovery são softwares cujos vendedores prometem isso, bom…

… você é livre para acreditar no que quiser. ;-)

Feliz Ano Novo!

O que é Data Discovery?

Ouço falar de Data Discovery há alguns anos. Estando na indústria de BI eu vejo como minha obrigação saber, no mínimo, o que é qualquer uma das buzzwords. Como eu já tentava descobrir o que era DD “de verdade” há mais de ano, eu decidi que daria cabo da tarefa de uma vez por todas. Não estava mais aguentando ouvir DD em todo canto sem saber o que era.

Neste um tanto quanto longo demais post eu vou relatar a minha jornada em busca desse conhecimento. Não é um artigo científico, não foi uma busca sistemática. Foi mais uma luta para achar alguma informação, anormalmente rara na minha opinião.

Definição? Eu Acho que Não…

Se você procurar, com o Google, Data Mining, Data Warehouse ou mesmo BI, vai achar uma renca de definições. Data Discovery, por outro lado, é um termo curiosamente “ralo”. Veja o screenshot do Google para Data Discovery:

Googling por Data Discovery: é só isso??
Googling por Data Discovery: é só isso??

Nota: que pese em defesa do DD que o Google já sabe todas as minhas preferências e enviesa todas as minhas buscas. Tente na sua máquina, em casa e no trabalho, e me mande um screenshot dos resultados. Tenho curiosidade em saber quão viciadas estão minhas buscas.

Para comparar, veja os resultados para Data Mining (figurinha carimbada) e para Anchor Modeling (coisa praticamente alienígena):

Um termo histórico, a busca por Data Mining traz muito mais resultados.
Um termo histórico, a busca por Data Mining traz muito mais resultados.

 

Sabe o que é Achor Modeling? Um termo desconhecido para a maioria, mas não para o Google. Dica: o último link é muito bom!
Sabe o que é Achor Modeling? Um termo desconhecido para a maioria, mas não para o Google. Dica: o último link é muito bom!

Sentiram o drama? Bom, vamos adiante. Acessei o verbete Data Discovery na Wikipedia para ver apenas isso:

... e isso é tudo que há sobre DD na Wikipedia.
… e isso é tudo que há sobre DD na Wikipedia.

Eis a definição inteira:

(1) Data discovery is a Business intelligence architecture aimed at interactive reports and explorable data from multiple sources. According to Gartner “Data discovery has become a mainstream architecture in 2012”.

Definition

(2) Jill Dyche calls Data discovery ‘Knowledge discovery’ and defines it as: “[…]the detection of patterns in data. […] These patterns are too specific and seemingly arbitrary to specify, and the analyst would be playing a perpetual guessing-game trying to figure out all the possible patterns in the database. Instead, special knowledge discovery software tools find the patterns and tell the analyst what–and where–they are.” [2]

As the current (2013-2014) SAS Vice-President for Best Practices her definition not surprisingly resembles the definition of Data mining:

“Data mining (…) an interdisciplinary subfield of computer science, is the computational process of discovering patterns in large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems. The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use. Aside from the raw analysis step, it involves database and data management aspects, data pre-processing, model and inference considerations, interestingness metrics, complexity considerations, post-processing of discovered structures, visualization, and online updating.”

It can also be referred to as Business Discovery.

De quebra ainda achamos a definição de Business Discovery: segundo esse artigo, é a mesma coisa.

Vamos analisar as duas partes destacadas.

(1) Data discovery is…

Em tradução livre, DD é uma arquitetura de BI voltada para relatórios interativos e dados exploráveis a partir de várias fontes.

Ou seja, em primeiro lugar, DD não é um produto mas uma arquitetura. Absolutamente nenhum detalhe, por mais geral ou genérico que seja, é dado sobre essa arquitetura no restante do artigo. A busca no Google já não trouxe muita coisa, mas uma busca por architecture data discovery traz menos coisas ainda:

Outra tentativa: se DD é uma arquitetura, será que agora eu acho mais informações? Hmm ...
Outra tentativa: se DD é uma arquitetura, será que agora eu acho mais informações? Hmm …

A segunda parte da frase, “relatórios interativos e dados exploráveis de várias fontes” dificilmente é alguma coisa particular à Data Discovery. Afinal, a ferramenta mais básica de BI é um gerador de relatórios. O conceito mais básico dentro de BI é um DW, que é por natureza “dados exploráveis de várias fontes em um único lugar”.

Conclusão: nenhuma. É, nenhuma! Por este trecho da definição na Wikipedia, DD é só uma buzzword, uma repaginação de “relatórios em cima de um DW”.

Mas o artigo da Wikipedia não acaba ali. Vejamos a segunda parte.

(2) Jill Dyche calls Data discovery…

Jill Dyche chama Data Discovery de ‘Descoberta de Conhecimento’  e define isso como: “[…]a detecção de padrões nos dados.” Uma nota de rodapé aponta para um artigo na Harvard Business Review no qual consta essa definição. Ao final deste artigo descobrimos quem é Jill Dyche:

Jill Dyche

Jill Dyché é a Vice-Presidente de Thought Leadership no SAS, onde ela é responsável por estratégias para clientes-chave e análise de mercado nas áreas de governança de dados, BI, MDM e BigData. Ela escreveu três livros sobre o valor de negócios trazido pela informação.

O culpado da tradução atroz sou eu mesmo, e por isso aqui vão algumas explicações:

  • Thought Leadership é algo como lider intelectual, no sentido de quem pensa muito e lidera (não como o Cérebro gostaria;)
  • Valor de Negócios trazido pela informação: o quão importante um conhecimento (uma informação) é para o negócio, e não o quanto a mais se fatura graças a uma informação. Mais do que saber para qual cliente vender, mais informação sobre o negócio traz mudanças e mais negócios.

A mulher não é fraca, não. Poucas personalidades em TI tem a prerrogativa ou a sorte de definir, sozinha, uma buzzword. Ela está no mesmo nível do Bill Inmon, Pai do DW: Jyll Diché, Mãe do Data Discovery.

Bom, mas e então: o que tiramos desta definição?

De novo: nada. Sim, nada. Porquê? Oras, caramba, por que “a detecção de padrões nos dados” é a mera definição de Data Mining!

Data mining (…), an interdisciplinary subfield of computer science(…) is the computational process of discovering patterns in large data sets(…)

Conclusão: uma vice-presidente do SAS (a multinacional de BI,  uma empresa Thought Leader em Data Mining) define Data Discovery como Data Mining. Ou seja, uma nova buzzword para (re)definir uma antiga buzzword.

Na verdade, esse é um movimento clássico do SAS. Periodicamente eles colam um novo jargão para tentar se descolar da concorrência. O SAS tem um grande problema de propaganda (eles não fazem, e se orgulham disso) e por isso volta e meia se saem com uma dessas. Eu me lembro de um GUSAS (2009, acho) em que eles vieram com essa de BA – BI estava morto, o lance agora seria BA, Business Analytics.

Mais Alguém?

Ok, então em termos de definições formais isso é (praticamente) tudo que temos: um artigo circular da Wikipedia montado sobre um post de uma VP do SAS.

Eu venho repetindo essa pesquisa por definições formais há mais de um ano, e sempre chego mais ou menos aos mesmo artigos e aos mesmos lugares, mesmas pessoas e mesmos conceitos. Pode ser um erro de vício meu, pode ser incompetência minha em usar o Google,  mas se um profissional do ramo repetidamente procura por um assunto, fuça e nunca encontra muito mais que só isso, então provavelmente isso é que o tem para ser encontrado. Mas nem de longe é tudo que existe.

Há outra fonte de informação e conhecimento sobre assuntos de BI: os próprios fornecedores. Essa é uma fonte que não pode ser menosprezada, já que frequentemente novos conceitos surgem de necessidades do mercado que um fornecedor foi inteligente o bastante para identificar e atender. Isso quando uma encomenda direta não é o motivador. Um caso recente das duas situações é Ruby (encomenda direta) e Rails (um resultado colateral.)

Quem é famoso por Data Discovery? Tableau e QlikView me vêem imediatamente à cabeça. Eu também bati um papo com o CEO da Panorama sobre o Necto, que na minha opinião entra na categoria.

Depois eu forcei umas buscas com o Google e achei também SAS, MicroStrategy, Teradata, IBM e SAP (Lumira.) Também achei a Hitachi, mas era um “nada a ver” – coisa de encontrar arquivos em NAS.

Não posso examinar tudo, pois mataria vocês de tédio. Vou destacar os mais importantes (de novo, na minha opinião.) O critério para escolher o mais importante foi bem prático: que empresa se marketeia como “de Data Discovery”. Depois eu vou comentar um pouco sobre os outros fornecedores.

Aviso: tudo que virá a seguir é uma FORTE manifestação da minha opinião pessoal.

Não é uma análise técnica, e não necessariamente eu endosso qualquer um dos produtos a seguir, muito menos detrato-os. Tenho minha cabeça formada e respondo por minha opinião. De novo, este post relata minha saga para tentar entender um conceito, e por isso é uma história totalmente enviesada por meus pontos-de-vista. Se não gostar de algo, esteja à vontade para reclamar.

QlikView

Eis o Thought Leader em DD, na minha opinião. Pelo que eu testemunhei nestes últimos anos, foi a QlikTech que lançou a moda e surfou (e ainda surfa) essa onda. Eles têm um excelente produto, tanto que são adorados pelos clientes. Tive oportunidade de ler o livro QlikView 11 for Developers e ganhei algum entendimento de como ele funciona.

O que eles têm a dizer sobre DD?

Business Discovery is a whole new way of doing things that puts the business user in control. Unlike traditional BI, where just a few people are involved in insight creation, Business Discovery enables everyone to create insight. It’s about workgroups, departments, and entire business units having access to the data they need to make better decisions. With QlikView, businesses can take insight to the edges of their organization, enabling every business user to do their jobs smarter and faster than ever. QlikView enables all users to create tailored insights that meet their unique business needs and timelines.

Putz, acho que chegamos tarde demais: não existe mais DD, agora é Business Discovery. Bom, vai ter que servir. Aqui tem uma mensagem interessante: nada sobre gráficos bonitos e rápidos, mas sim sobre todos na empresa poderem acessar os dados. No final da página tem uma lista de white papers, e um deles é o pote de ouro: um manifesto sobre Business Discovery!! Eles realmente encamparam o assunto!

Só que eu não consegui baixá-lo do site. Uma busca ligeira no Google e voi-lá, manifesto BD! A mensagem é muito boa:

  • Informação pode mudar o mundo;
  • Eles querem tornar o nosso trabalho mais fácil;
  • Negócios estão sendo impactados por pessoas;
  • Merecemos mais que uma bela interface;

Graças ao que eu li no livro QV 11 for Developers eu acho que consegui entender parte da mensagem. Se eu entendi corretamente, BD (que deve ser o mesmo que DD) é uma ferramenta de BI com gráficos beirando o divino de tão bonitos e animados, que busca os dados diretamente dos sistemas de origem.

Parece que o acesso direto a dados é algo importante, mas definitivamente o lance são os gráficos bonitos. Eis um excerto do manifesto, no qual eu destaco em negrito as menções a “coisas bonitas e legais”:

QlikView (…) seductively slick and intuitive dashboards are easy to navigate and fun to use. We support rich colors and robust graphics. We encourage data to speak for itself in vivid shapes and colors. We’ve got style in spades. (…) QlikView is gorgeous — but it’s also genius. We bundle the best of Business Discovery into one application. It allows you to access all your data sources, create your own dashboards, ask your own questions, and get answers instantly from a blazing fast associative technology. Untethered from traditional business intelligence, you can slice and dice data and drill in, out, up, down, and sideways. You can tweak, improve, improvise, and innovate to your heart’s content.

Curioso, não? Segundo o manifesto, sem os fios que te prendem ao BI tradicional (o que é isso???), você pode fatiar e picar furar e deslizar e dançar nos dados como quiser. Curioso porque essa é a promessa do OLAP, é velha, já foi feita por muitas outras empresas e não tem nada, realmente, de novo. Agora, o que é BI tradicional? Seria muito legal se eles fossem mais específicos ou mais claros. Enfim, o manifesto é deles, eles se manifestam como quiserem.

Bom, o suco até agora é: DD já era, o lance é BD, que é melhor que BI tradicional porque é mais livre.

Talvez Business Discovery não seja algo tão diferente: se agora o QV é uma ferramenta de BD, um dia foi de BI antes de ser de DD. O site QuickIntelligence registrou o momento em que a QlikTech tentou se desligar de BI abraçando DD em um post de abril de 2011:

QlikTech has recently shifted their marketing message very slightly to position QlikView as a Data Discovery tool, moving away from the Business Intelligence tag.

Eu não estava lá quando isso aconteceu, mas se o post acima for minimamente verossímel (e tudo indica que seja), a ferramenta não parece ter sofrido mudança, mas apenas um “reposicionamento” através de “uma mudança de mensagem de marketing”. Em miúdos: o QlikView “virou” uma ferramenta de DD só porque eles passaram a se definir desta forma. Talvez a mudança para Business Discovery seja, na verdade, só uma nova mensagem de marketing.

Resumindo: se QlikView é Data Discovery, então Data Discovery e Business Discovery 1) são a mesma coisa e 2) DD diz respeito a montar belos e atraentes e divertidos gráficos com os dados. De acordo com o livro mencionado anteriormente, porém, acessar os dados diretamente não é um objetivo, mas antes uma possibilidade: se precisar, o QV acessa diretamente, mas o ideal, mesmo, é ter um modelo dimensional com os dados prontos para consulta.

Tableau

Não conheço produto. O descobri porque toda vez que procurava DD no Google, anúncios do Tableau apareciam – daí concluí que eles se posicionam como ferramenta de DD.

O site é muito bonito, e todo alinhado com as buzzwords do momento:

Tableau é o bicho! Buzzwords, Buzzwords, Buzzwords! (Cadê o "belos gráficos"??)
Tableau é o bicho! Buzzwords, Buzzwords, Buzzwords! (Cadê o “belos gráficos”??)

Clicando em Products, a mensagem abaixo da bela figura diz:

Our breakthrough products let you create rich analyses and share your insights with colleagues in seconds.

Um termo diferente: “ricas análises”. É bem diferente de “ricos gráficos” ou “belas análises” – intuitivamente eu diria que sugere análises caprichadas e bem feitas. Junto a isso, a vantagem de “compartilhar com seus colegas em segundos”.

Outros termos que se destacam lendo mais a página de produto aparecem Fast, Easy, Any Data, Share. Notadamente nenhuma menção a belos gráficos. Remarkable!

Eu li as páginas dos produtos, diagonalmente, e eles sempre batem na mesma tecla: análises sofisticadas (ricas). O produto existem em versões desktop (incomum – e com uma opção gratuita, chamada Public) e web (com uma opção SaaS, chamada Online) e em nenhum lugar existe uma única menção a coisas bonitas e atraentes.

Eu queria dizer o Tableau é o “me too” do QlikView, ou seja, a empresa que viu o sucesso do vizinho e decidiu pegar o vácuo, mas não consigo. Eles não usam a mesma chamada de vendas, e nem sequer as mesmas buzzwords. Se bem que o QlikView não fala muito em nuvem nem análises ricas…

Enfim, do Tableau eu não consegui aprender nada sobre o que porventura seja Data Discovery.

Necto

Yeah! Acertei em cheio! Olhem só a frase de abertura:

Best of Enterprise BI and Visual Data Discovery – Combined

Se QlikTech é Business Discovery (== Data Discovery.newBuzzword(); ), com um certo desprezo pelo BI tradicional (??), o Necto é o melhor da soma dos dois! Talvez eles tenham alguma opinião ou definição sobre DD. (Opa! Eles disseram DD? Putz, também ficaram para trás… <grin>)

A Panorama é a alegria do repórter de BI. Da mesma página linkada acima:

Panorama Necto is advancing Business Intelligence 3.0 to the next level, bringing together the very best of Enterprise BI with Visual Data Discovery, providing enterprises with new ways to collaborate and create unique contextual connections.

Necto 14 is the first BI solution to provide business users with personalized, intuitive, and interactive analytics, delivered through a highly visual and understandable infographic format. Business users can use Panorama Necto 14’s self-service data discovery and visualization capability to uncover hidden insight, present vital data, and track performance using interactive infographics that dynamically reflect business changes.Necto 14 improves every step of your business decision making process.

BI 3.0? Enterprise BI, formato infográfico altamente visual, self-service Data Discovery!!! MEUSANTODEUSÉMUITABUZZWORDJUNTA!!!! (ROFL!) Se eu tivesse pintado as buzzwords de vermelho ao invés de fazê-las negrito, o texto acima pareceria a bandeira do Flamengo!

Uma coisa que eu gostei é que eles escrevem muito. Há vários textos e white papers sobre o que eles fazem, o que é BI 3.0 e porque são diferentes. Entretanto, eles tomam DD como uma coisa já assimilada e nunca discutem o conceito em si.

Por outro lado, tem tanta buzzword em toda essa informação que fica difícil dizer do que eles estão falando. Eu tive chance de trocar umas palavras (via LinkedIn) com o CEO deles, mas o que realmente me ajudou foi assistir alguns vídeos, especialmente aqueles nos quais eles demonstram a visão do produto, mas não consegui achar o mesmo vídeo de novo.

A idéia é boa: somar Facebook com QlikView e conseguir gente para analisar um problema via uma ferramenta colaborativa.

Enfim, segundo eles, Data Discovery é o bicho se for com o produto deles, claro, já que nenhum outro oferece tantas coisas legais em tão pouco espaço de tela. (Still ROFLing from BW OD!) Mas nada sobre o que é DD. Ou seja, “better me too”: quis fazer um QlikView melhor que o QlikView e inventou outras coisas. Gostei da idéia de times adhoc para análises de dados. Me parece pouco útil para empresas de médio porte ou menores, mas pode muito bem ser o futuro para empresas de grande porte. Vou ficar de olho!

Os Outros

Pausa para uma piada:

Um dia um grande especialista em vermes foi convidado, por um zoológico, para fazer uma palestra sobre elefantes. A oportunidade era boa, mas ele não sabia nada sobre elefantes. Ele aceitou, e sua palestra começava assim: “Os elefantes são grande animais, que possuem quatro membros, uma tromba e uma uma cauda, semelhante a um verme. Os vermes subdividem-se em…”

Moral: todo mundo só fala do que sabe. ;-)

Os fornecedores a seguir lembram um pouco essa piada: eles já estavam no mercado quando a moda pegou, então eles deram um jeito de entrar nela. Os destaques vão para a Teradata, que patrocina um livro, DD for Dummies, masapesar disso o produto não tem uma única menção a “Quickly build beautiful visualizations with just a few clicks”, e para a SAP, gigante alemã do ramo de ERPs, cujo produto inteiro é só “Quickly build beautiful visualizations with just a few clicks”.

SAS

A empresa de BI por excelência, e a cunhadora do termo. Tem um produto específico chamado (adivinhe!) SAS Visual Data Discovery. O sales pitch (a chamada de vendas) é “acesso visual às avançadas capacidades analíticas do SAS, que permite interagir visualmente com dados para clarear o entedimento e alavancar a ação”. Um clássico, sem dúvida. Deve ser caro para dedéu, como tudo do SAS, mas eu não apostaria no SAS contra o QlikView. Não que o SAS não deva ter um bom produto, mas o foco do SAS – a especialidade dele – é solução de BI (que é o que realmente interessa), e por isso todos os outros produtos existem para oferecer competição nos nichos.

MicroStrategy

Não existe um produto chamado explicitamente de Data Discovery. Procurando por microstrategy data discovery no Google voltam alguns links que levam para esta página. Nela a MicroStrategy mostra um produto chamado Visual Insight e tem a seguinte apresentação inicial:

A Faster Way to Visualize Your Data

MicroStrategy Visual Insight empowers you to discover insights from your data using compelling visualizations. Quickly and easily explore any data contained in personal spreadsheets, databases, or Hadoop. Investigate and analyze the data further by defining new metric calculations, zooming into details with filters, and color-coding the results with thresholds. Create multiple visualizations to get additional insights and perspectives that enhance data comprehension. Combine your findings into a dashboard you can save and share with your colleagues.

Eis os elementos clássicos (ou típicos) da mensagem de DD: obter insights, visual atraente, rápido e dados vindos de qualquer tipo de fonte. Ou seja, mais um “me too”. O curioso, aqui, é que a MicroStrategy tradicionalmente faz exatamente isso – belas visualizações de dados, com alta performance. A parte “de qualquer tipo de fonte” é universal, já que qualquer ferramenta faz isso se jogada sobre um DW. Não sei se ele oferecem Data Blending (outra buzzword – mas isso fica para outro post.)

Repare que, ao contrário do SAS, não existe menção a funções analíticas sofisticadas ou avançadas – só visualizações e gráficos bonitos, rápidos e avançados.

Finalmente, eles oferecem uma lista de outras fontes de informação, muito curiosa:

  • Whitepaper: Checklist for Achieving BI Agility
  • Whitepaper: Enabling Data Discovery
  • Whitepaper: Three Reasons Why Data Discovery Falls Short (segundo eles, DD é útil, mas não é tudo)
  • Webcast: 7 Steps for Achieving BI Agility (que inclui um caso de DD com MicroStrategy)
  • Webcast: A Guide to Governed Data Discovery

Hmm… Eles entraram na onda ou não??

Teradata

O produto da Teradata, a empresa de big data antes do BigData, dos bancos de dados gigantescos e de altíssima performance (não tem tera no nome à toa) chama-se Aster, que oferece “poderosos insights através de uma solução integrada, otimizada para todos os dados, múltiplas análises e velocidade, com um esforço mínimo”. Não achei que o Aster responde por DD, mas como tanto via Google quanto via search field, os resultados são iguais, entendi que essa é a mensagem que a Teradata quer passar. Na minha opinião, faltaria a parte de visualização, mas ei, talvez DD não tenha mesmo nada a ver com visualização.

IBM

Tudo com a IBM é tão vasto, completo e complexo que até buscar produtos de DD deles, no Google, é uma tarefa difícil. O primeiro site que eu encontrei, depois de algumas tentativas, foi o VizWorld. O autor do post discute a nova oferta de produtos da IBM para DD na nuvem, e menciona um tal de projeto Neo, em beta ainda em novembro de 2013. Hm, sei, projeto Neo. Nem fui atrás.

Tentei o Google de novo e fui para um resultado que eu dispensei inicialmente: InfoSphere Discovery – eu confundira com WebSphere. InfoSphere é a linha de BI da IBM. Cavando um pouco cheguei a muitas outras coisas, mas em resumo, se existe DD para a IBM, ela se resume em três coisas: visualization, visualizationvisualization (Balmer ficaria orgulhoso.) Eles tem um motor de visualização adaptativa (RAVE), uma comunidade de especialistas de visualização (Many Eyes) etc. etc. etc.

E tem o Cognos, que a IBM comprou há algum tempo. Diferentes nomes, mesmas funções.

Agora eu me lembro porque eu nunca vi nada de BI da IBM – é tudo tãããooo difícil e abstrato…

SAP

SAP é outro mundo do tamanho da IBM. Eles têm produtos próprios de BI, relatórios, DW etc. Entre outras coisas, eles compraram um dos antigos nomes de BI, o Business Objects (BO.) Mas eu fiz uma pesquisa no Google por SAP data discovery e não veio nada disso. Veio um tal de SAP Lumira. Eis o que aparece no site deles:

Quickly build beautiful visualizations with just a few clicks. Combine data sources and get the big picture and granular details together. Visualize large volumes of data without having to sacrifice performance. Maximize data knowledge and drive immediate outcomes.

Preciso dizer mais? “Big Bad German Business Me Too”.

Excel

A Microsoft não reposicionou o Excel como ferramenta de BI, mas no fundo o Excel é o proverbial “lápis e papel” de BI. Excepcionalmente versátil, imensamente útil, o Excel é a ferramentra de BI por excelência. É nele que baixamos os dados para “fazer uma contas e ver se os números estão batendo”. Ele está muito longe de ser capaz de oferecer uma solução de BI, mas em princípio, está tudo lá.

Eu decidi incluir o Excel na lista porque a QlikTech o faz parecer uma ferramenta de DD: ele pode acessar uma enorme gama de dados e produzir fácil e rapidamente uma gama de boas (e até belas) visualizações de dados.

Claro que eu estou usando a palavra Excel como usamos Bombril: tanto poderia ser o Calc, do LibreOffice, quanto o próprio Excel. A categoria é Planilha Eletrônica. Mas ninguém compra palha de aço Brilhante – compramos Bombril mais barato!

Pentaho

Rapaz, a Pentaho é outro SAS. Tem muita coisa, e faz tudo mas (curiosamente) resolveu não investir no jargão DD. Eles criaram o deles (ah, tão SAS…), Data Blending (que eu também estou apanhando para captar, mas enfim, o problema aqui sou mesmo eu – ainda não parei para ir atrás.)

Seguindo a definição da QlikTech, por outro lado, o Pentaho BI Server EE é uma ferramenta de DD pois facilmente produz belos gráficos a partir de qualquer fonte de dados, sem intervenção do departamento de TI. O Pentaho CE também pode fazer isso, mas dá um pouco mais de trabalho. Além disso, também acessa qualquer fonte de dados. (Banco de dados 100% em memória não foi mencionado, mas o Pentaho também pode usar um se precisar.)

Finalmente, podemos juntar uma ferramenta de webmeeting, como o BigBlueButton ou OpenMeetings, para ter os times adhoc. Se o Pedro conseguir trazer para o CDE a facilidade do Pentaho EE Dashboard Designer, então o BI Server poderá oferecer infográficos adhoc. Isso completaria a visão de BI 3.0 da Panorama. O que também é uma opção para qualquer outra ferramenta. Nada mal.

Conclusão

O que é Data Discovery? Na minha opinião:

  1. Segundo a Wikipedia, é só uma nova buzzword do SAS, criada para substituir Data Mining;
  2. Segundo o mais importante player da área, a QlikTech, é uma ferramenta de análise de dados capaz de gerar belos gráficos;
  3. Segundo os outros fornecedores, incluindo a Pentaho, é folder fodder – só encheção de linguiça.

Por enquanto, a minha despretenciosa e ordinária pesquisa – a que qualquer um poderia fazer – chegou à conclusão que Data Discovery se trata de um termo específico da área, criado para diferenciar um fornecedor de outro no lotado mercado de ferramentas de BI. Em jargão castiço, Data Discovery é só uma buzzword.

Por inferência, a mesma conclusão espalha-se para Business Discovery.


A Seguir: O Que É Data Discovery, Parte 2 – Discussões no LinkedIn

Ok, então eu esgotei o que a minha parca competência de googlador profissional consegue me trazer. É hora de jogar a toalha e buscar o conselho dos meus pares da indústria de BI. É hora de postar a mesma pergunta no LinkedIn.

Semana que vem eu publicarei a resenha do livro Pentaho BA Cookbook, e depois (talvez) um post sobre o que destaca uma solução de BI de uma mera ferramenta. Daí, na semana seguinte, se eu conseguir, eu publicarei a segunda parte.

Tentem não me linchar – eu estou só compartilhando os meus pensamentos sobre a aventura que tem sido essa busca. Nada aqui tinha a menor intenção de ser minimamente formal ou definitivo, nem elogiar ou detratar ninguém. Se você discorda de algo que eu escrevi, é bem-vindo para comentar educadamente.

Até lá!