O que é Data Discovery?

Ouço falar de Data Discovery há alguns anos. Estando na indústria de BI eu vejo como minha obrigação saber, no mínimo, o que é qualquer uma das buzzwords. Como eu já tentava descobrir o que era DD “de verdade” há mais de ano, eu decidi que daria cabo da tarefa de uma vez por todas. Não estava mais aguentando ouvir DD em todo canto sem saber o que era.

Neste um tanto quanto longo demais post eu vou relatar a minha jornada em busca desse conhecimento. Não é um artigo científico, não foi uma busca sistemática. Foi mais uma luta para achar alguma informação, anormalmente rara na minha opinião.

Definição? Eu Acho que Não…

Se você procurar, com o Google, Data Mining, Data Warehouse ou mesmo BI, vai achar uma renca de definições. Data Discovery, por outro lado, é um termo curiosamente “ralo”. Veja o screenshot do Google para Data Discovery:

Googling por Data Discovery: é só isso??

Googling por Data Discovery: é só isso??

Nota: que pese em defesa do DD que o Google já sabe todas as minhas preferências e enviesa todas as minhas buscas. Tente na sua máquina, em casa e no trabalho, e me mande um screenshot dos resultados. Tenho curiosidade em saber quão viciadas estão minhas buscas.

Para comparar, veja os resultados para Data Mining (figurinha carimbada) e para Anchor Modeling (coisa praticamente alienígena):

Um termo histórico, a busca por Data Mining traz muito mais resultados.

Um termo histórico, a busca por Data Mining traz muito mais resultados.

 

Sabe o que é Achor Modeling? Um termo desconhecido para a maioria, mas não para o Google. Dica: o último link é muito bom!

Sabe o que é Achor Modeling? Um termo desconhecido para a maioria, mas não para o Google. Dica: o último link é muito bom!

Sentiram o drama? Bom, vamos adiante. Acessei o verbete Data Discovery na Wikipedia para ver apenas isso:

... e isso é tudo que há sobre DD na Wikipedia.

… e isso é tudo que há sobre DD na Wikipedia.

Eis a definição inteira:

(1) Data discovery is a Business intelligence architecture aimed at interactive reports and explorable data from multiple sources. According to Gartner “Data discovery has become a mainstream architecture in 2012″.

Definition

(2) Jill Dyche calls Data discovery ‘Knowledge discovery’ and defines it as: “[...]the detection of patterns in data. [...] These patterns are too specific and seemingly arbitrary to specify, and the analyst would be playing a perpetual guessing-game trying to figure out all the possible patterns in the database. Instead, special knowledge discovery software tools find the patterns and tell the analyst what–and where–they are.” [2]

As the current (2013-2014) SAS Vice-President for Best Practices her definition not surprisingly resembles the definition of Data mining:

“Data mining (…) an interdisciplinary subfield of computer science, is the computational process of discovering patterns in large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems. The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use. Aside from the raw analysis step, it involves database and data management aspects, data pre-processing, model and inference considerations, interestingness metrics, complexity considerations, post-processing of discovered structures, visualization, and online updating.”

It can also be referred to as Business Discovery.

De quebra ainda achamos a definição de Business Discovery: segundo esse artigo, é a mesma coisa.

Vamos analisar as duas partes destacadas.

(1) Data discovery is…

Em tradução livre, DD é uma arquitetura de BI voltada para relatórios interativos e dados exploráveis a partir de várias fontes.

Ou seja, em primeiro lugar, DD não é um produto mas uma arquitetura. Absolutamente nenhum detalhe, por mais geral ou genérico que seja, é dado sobre essa arquitetura no restante do artigo. A busca no Google já não trouxe muita coisa, mas uma busca por architecture data discovery traz menos coisas ainda:

Outra tentativa: se DD é uma arquitetura, será que agora eu acho mais informações? Hmm ...

Outra tentativa: se DD é uma arquitetura, será que agora eu acho mais informações? Hmm …

A segunda parte da frase, “relatórios interativos e dados exploráveis de várias fontes” dificilmente é alguma coisa particular à Data Discovery. Afinal, a ferramenta mais básica de BI é um gerador de relatórios. O conceito mais básico dentro de BI é um DW, que é por natureza “dados exploráveis de várias fontes em um único lugar”.

Conclusão: nenhuma. É, nenhuma! Por este trecho da definição na Wikipedia, DD é só uma buzzword, uma repaginação de “relatórios em cima de um DW”.

Mas o artigo da Wikipedia não acaba ali. Vejamos a segunda parte.

(2) Jill Dyche calls Data discovery…

Jill Dyche chama Data Discovery de ‘Descoberta de Conhecimento’  e define isso como: “[...]a detecção de padrões nos dados.” Uma nota de rodapé aponta para um artigo na Harvard Business Review no qual consta essa definição. Ao final deste artigo descobrimos quem é Jill Dyche:

Jill Dyche

Jill Dyché é a Vice-Presidente de Thought Leadership no SAS, onde ela é responsável por estratégias para clientes-chave e análise de mercado nas áreas de governança de dados, BI, MDM e BigData. Ela escreveu três livros sobre o valor de negócios trazido pela informação.

O culpado da tradução atroz sou eu mesmo, e por isso aqui vão algumas explicações:

  • Thought Leadership é algo como lider intelectual, no sentido de quem pensa muito e lidera (não como o Cérebro gostaria;)
  • Valor de Negócios trazido pela informação: o quão importante um conhecimento (uma informação) é para o negócio, e não o quanto a mais se fatura graças a uma informação. Mais do que saber para qual cliente vender, mais informação sobre o negócio traz mudanças e mais negócios.

A mulher não é fraca, não. Poucas personalidades em TI tem a prerrogativa ou a sorte de definir, sozinha, uma buzzword. Ela está no mesmo nível do Bill Inmon, Pai do DW: Jyll Diché, Mãe do Data Discovery.

Bom, mas e então: o que tiramos desta definição?

De novo: nada. Sim, nada. Porquê? Oras, caramba, por que “a detecção de padrões nos dados” é a mera definição de Data Mining!

Data mining (…), an interdisciplinary subfield of computer science(…) is the computational process of discovering patterns in large data sets(…)

Conclusão: uma vice-presidente do SAS (a multinacional de BI,  uma empresa Thought Leader em Data Mining) define Data Discovery como Data Mining. Ou seja, uma nova buzzword para (re)definir uma antiga buzzword.

Na verdade, esse é um movimento clássico do SAS. Periodicamente eles colam um novo jargão para tentar se descolar da concorrência. O SAS tem um grande problema de propaganda (eles não fazem, e se orgulham disso) e por isso volta e meia se saem com uma dessas. Eu me lembro de um GUSAS (2009, acho) em que eles vieram com essa de BA – BI estava morto, o lance agora seria BA, Business Analytics.

Mais Alguém?

Ok, então em termos de definições formais isso é (praticamente) tudo que temos: um artigo circular da Wikipedia montado sobre um post de uma VP do SAS.

Eu venho repetindo essa pesquisa por definições formais há mais de um ano, e sempre chego mais ou menos aos mesmo artigos e aos mesmos lugares, mesmas pessoas e mesmos conceitos. Pode ser um erro de vício meu, pode ser incompetência minha em usar o Google,  mas se um profissional do ramo repetidamente procura por um assunto, fuça e nunca encontra muito mais que só isso, então provavelmente isso é que o tem para ser encontrado. Mas nem de longe é tudo que existe.

Há outra fonte de informação e conhecimento sobre assuntos de BI: os próprios fornecedores. Essa é uma fonte que não pode ser menosprezada, já que frequentemente novos conceitos surgem de necessidades do mercado que um fornecedor foi inteligente o bastante para identificar e atender. Isso quando uma encomenda direta não é o motivador. Um caso recente das duas situações é Ruby (encomenda direta) e Rails (um resultado colateral.)

Quem é famoso por Data Discovery? Tableau e QlikView me vêem imediatamente à cabeça. Eu também bati um papo com o CEO da Panorama sobre o Necto, que na minha opinião entra na categoria.

Depois eu forcei umas buscas com o Google e achei também SAS, MicroStrategy, Teradata, IBM e SAP (Lumira.) Também achei a Hitachi, mas era um “nada a ver” – coisa de encontrar arquivos em NAS.

Não posso examinar tudo, pois mataria vocês de tédio. Vou destacar os mais importantes (de novo, na minha opinião.) O critério para escolher o mais importante foi bem prático: que empresa se marketeia como “de Data Discovery”. Depois eu vou comentar um pouco sobre os outros fornecedores.

Aviso: tudo que virá a seguir é uma FORTE manifestação da minha opinião pessoal.

Não é uma análise técnica, e não necessariamente eu endosso qualquer um dos produtos a seguir, muito menos detrato-os. Tenho minha cabeça formada e respondo por minha opinião. De novo, este post relata minha saga para tentar entender um conceito, e por isso é uma história totalmente enviesada por meus pontos-de-vista. Se não gostar de algo, esteja à vontade para reclamar.

QlikView

Eis o Thought Leader em DD, na minha opinião. Pelo que eu testemunhei nestes últimos anos, foi a QlikTech que lançou a moda e surfou (e ainda surfa) essa onda. Eles têm um excelente produto, tanto que são adorados pelos clientes. Tive oportunidade de ler o livro QlikView 11 for Developers e ganhei algum entendimento de como ele funciona.

O que eles têm a dizer sobre DD?

Business Discovery is a whole new way of doing things that puts the business user in control. Unlike traditional BI, where just a few people are involved in insight creation, Business Discovery enables everyone to create insight. It’s about workgroups, departments, and entire business units having access to the data they need to make better decisions. With QlikView, businesses can take insight to the edges of their organization, enabling every business user to do their jobs smarter and faster than ever. QlikView enables all users to create tailored insights that meet their unique business needs and timelines.

Putz, acho que chegamos tarde demais: não existe mais DD, agora é Business Discovery. Bom, vai ter que servir. Aqui tem uma mensagem interessante: nada sobre gráficos bonitos e rápidos, mas sim sobre todos na empresa poderem acessar os dados. No final da página tem uma lista de white papers, e um deles é o pote de ouro: um manifesto sobre Business Discovery!! Eles realmente encamparam o assunto!

Só que eu não consegui baixá-lo do site. Uma busca ligeira no Google e voi-lá, manifesto BD! A mensagem é muito boa:

  • Informação pode mudar o mundo;
  • Eles querem tornar o nosso trabalho mais fácil;
  • Negócios estão sendo impactados por pessoas;
  • Merecemos mais que uma bela interface;

Graças ao que eu li no livro QV 11 for Developers eu acho que consegui entender parte da mensagem. Se eu entendi corretamente, BD (que deve ser o mesmo que DD) é uma ferramenta de BI com gráficos beirando o divino de tão bonitos e animados, que busca os dados diretamente dos sistemas de origem.

Parece que o acesso direto a dados é algo importante, mas definitivamente o lance são os gráficos bonitos. Eis um excerto do manifesto, no qual eu destaco em negrito as menções a “coisas bonitas e legais”:

QlikView (…) seductively slick and intuitive dashboards are easy to navigate and fun to use. We support rich colors and robust graphics. We encourage data to speak for itself in vivid shapes and colors. We’ve got style in spades. (…) QlikView is gorgeous — but it’s also genius. We bundle the best of Business Discovery into one application. It allows you to access all your data sources, create your own dashboards, ask your own questions, and get answers instantly from a blazing fast associative technology. Untethered from traditional business intelligence, you can slice and dice data and drill in, out, up, down, and sideways. You can tweak, improve, improvise, and innovate to your heart’s content.

Curioso, não? Segundo o manifesto, sem os fios que te prendem ao BI tradicional (o que é isso???), você pode fatiar e picar furar e deslizar e dançar nos dados como quiser. Curioso porque essa é a promessa do OLAP, é velha, já foi feita por muitas outras empresas e não tem nada, realmente, de novo. Agora, o que é BI tradicional? Seria muito legal se eles fossem mais específicos ou mais claros. Enfim, o manifesto é deles, eles se manifestam como quiserem.

Bom, o suco até agora é: DD já era, o lance é BD, que é melhor que BI tradicional porque é mais livre.

Talvez Business Discovery não seja algo tão diferente: se agora o QV é uma ferramenta de BD, um dia foi de BI antes de ser de DD. O site QuickIntelligence registrou o momento em que a QlikTech tentou se desligar de BI abraçando DD em um post de abril de 2011:

QlikTech has recently shifted their marketing message very slightly to position QlikView as a Data Discovery tool, moving away from the Business Intelligence tag.

Eu não estava lá quando isso aconteceu, mas se o post acima for minimamente verossímel (e tudo indica que seja), a ferramenta não parece ter sofrido mudança, mas apenas um “reposicionamento” através de “uma mudança de mensagem de marketing”. Em miúdos: o QlikView “virou” uma ferramenta de DD só porque eles passaram a se definir desta forma. Talvez a mudança para Business Discovery seja, na verdade, só uma nova mensagem de marketing.

Resumindo: se QlikView é Data Discovery, então Data Discovery e Business Discovery 1) são a mesma coisa e 2) DD diz respeito a montar belos e atraentes e divertidos gráficos com os dados. De acordo com o livro mencionado anteriormente, porém, acessar os dados diretamente não é um objetivo, mas antes uma possibilidade: se precisar, o QV acessa diretamente, mas o ideal, mesmo, é ter um modelo dimensional com os dados prontos para consulta.

Tableau

Não conheço produto. O descobri porque toda vez que procurava DD no Google, anúncios do Tableau apareciam – daí concluí que eles se posicionam como ferramenta de DD.

O site é muito bonito, e todo alinhado com as buzzwords do momento:

Tableau é o bicho! Buzzwords, Buzzwords, Buzzwords! (Cadê o "belos gráficos"??)

Tableau é o bicho! Buzzwords, Buzzwords, Buzzwords! (Cadê o “belos gráficos”??)

Clicando em Products, a mensagem abaixo da bela figura diz:

Our breakthrough products let you create rich analyses and share your insights with colleagues in seconds.

Um termo diferente: “ricas análises”. É bem diferente de “ricos gráficos” ou “belas análises” – intuitivamente eu diria que sugere análises caprichadas e bem feitas. Junto a isso, a vantagem de “compartilhar com seus colegas em segundos”.

Outros termos que se destacam lendo mais a página de produto aparecem Fast, Easy, Any Data, Share. Notadamente nenhuma menção a belos gráficos. Remarkable!

Eu li as páginas dos produtos, diagonalmente, e eles sempre batem na mesma tecla: análises sofisticadas (ricas). O produto existem em versões desktop (incomum – e com uma opção gratuita, chamada Public) e web (com uma opção SaaS, chamada Online) e em nenhum lugar existe uma única menção a coisas bonitas e atraentes.

Eu queria dizer o Tableau é o “me too” do QlikView, ou seja, a empresa que viu o sucesso do vizinho e decidiu pegar o vácuo, mas não consigo. Eles não usam a mesma chamada de vendas, e nem sequer as mesmas buzzwords. Se bem que o QlikView não fala muito em nuvem nem análises ricas…

Enfim, do Tableau eu não consegui aprender nada sobre o que porventura seja Data Discovery.

Necto

Yeah! Acertei em cheio! Olhem só a frase de abertura:

Best of Enterprise BI and Visual Data Discovery – Combined

Se QlikTech é Business Discovery (== Data Discovery.newBuzzword(); ), com um certo desprezo pelo BI tradicional (??), o Necto é o melhor da soma dos dois! Talvez eles tenham alguma opinião ou definição sobre DD. (Opa! Eles disseram DD? Putz, também ficaram para trás… <grin>)

A Panorama é a alegria do repórter de BI. Da mesma página linkada acima:

Panorama Necto is advancing Business Intelligence 3.0 to the next level, bringing together the very best of Enterprise BI with Visual Data Discovery, providing enterprises with new ways to collaborate and create unique contextual connections.

Necto 14 is the first BI solution to provide business users with personalized, intuitive, and interactive analytics, delivered through a highly visual and understandable infographic format. Business users can use Panorama Necto 14’s self-service data discovery and visualization capability to uncover hidden insight, present vital data, and track performance using interactive infographics that dynamically reflect business changes.Necto 14 improves every step of your business decision making process.

BI 3.0? Enterprise BI, formato infográfico altamente visual, self-service Data Discovery!!! MEUSANTODEUSÉMUITABUZZWORDJUNTA!!!! (ROFL!) Se eu tivesse pintado as buzzwords de vermelho ao invés de fazê-las negrito, o texto acima pareceria a bandeira do Flamengo!

Uma coisa que eu gostei é que eles escrevem muito. Há vários textos e white papers sobre o que eles fazem, o que é BI 3.0 e porque são diferentes. Entretanto, eles tomam DD como uma coisa já assimilada e nunca discutem o conceito em si.

Por outro lado, tem tanta buzzword em toda essa informação que fica difícil dizer do que eles estão falando. Eu tive chance de trocar umas palavras (via LinkedIn) com o CEO deles, mas o que realmente me ajudou foi assistir alguns vídeos, especialmente aqueles nos quais eles demonstram a visão do produto, mas não consegui achar o mesmo vídeo de novo.

A idéia é boa: somar Facebook com QlikView e conseguir gente para analisar um problema via uma ferramenta colaborativa.

Enfim, segundo eles, Data Discovery é o bicho se for com o produto deles, claro, já que nenhum outro oferece tantas coisas legais em tão pouco espaço de tela. (Still ROFLing from BW OD!) Mas nada sobre o que é DD. Ou seja, “better me too”: quis fazer um QlikView melhor que o QlikView e inventou outras coisas. Gostei da idéia de times adhoc para análises de dados. Me parece pouco útil para empresas de médio porte ou menores, mas pode muito bem ser o futuro para empresas de grande porte. Vou ficar de olho!

Os Outros

Pausa para uma piada:

Um dia um grande especialista em vermes foi convidado, por um zoológico, para fazer uma palestra sobre elefantes. A oportunidade era boa, mas ele não sabia nada sobre elefantes. Ele aceitou, e sua palestra começava assim: “Os elefantes são grande animais, que possuem quatro membros, uma tromba e uma uma cauda, semelhante a um verme. Os vermes subdividem-se em…”

Moral: todo mundo só fala do que sabe. ;-)

Os fornecedores a seguir lembram um pouco essa piada: eles já estavam no mercado quando a moda pegou, então eles deram um jeito de entrar nela. Os destaques vão para a Teradata, que patrocina um livro, DD for Dummies, masapesar disso o produto não tem uma única menção a “Quickly build beautiful visualizations with just a few clicks”, e para a SAP, gigante alemã do ramo de ERPs, cujo produto inteiro é só “Quickly build beautiful visualizations with just a few clicks”.

SAS

A empresa de BI por excelência, e a cunhadora do termo. Tem um produto específico chamado (adivinhe!) SAS Visual Data Discovery. O sales pitch (a chamada de vendas) é “acesso visual às avançadas capacidades analíticas do SAS, que permite interagir visualmente com dados para clarear o entedimento e alavancar a ação”. Um clássico, sem dúvida. Deve ser caro para dedéu, como tudo do SAS, mas eu não apostaria no SAS contra o QlikView. Não que o SAS não deva ter um bom produto, mas o foco do SAS – a especialidade dele – é solução de BI (que é o que realmente interessa), e por isso todos os outros produtos existem para oferecer competição nos nichos.

MicroStrategy

Não existe um produto chamado explicitamente de Data Discovery. Procurando por microstrategy data discovery no Google voltam alguns links que levam para esta página. Nela a MicroStrategy mostra um produto chamado Visual Insight e tem a seguinte apresentação inicial:

A Faster Way to Visualize Your Data

MicroStrategy Visual Insight empowers you to discover insights from your data using compelling visualizations. Quickly and easily explore any data contained in personal spreadsheets, databases, or Hadoop. Investigate and analyze the data further by defining new metric calculations, zooming into details with filters, and color-coding the results with thresholds. Create multiple visualizations to get additional insights and perspectives that enhance data comprehension. Combine your findings into a dashboard you can save and share with your colleagues.

Eis os elementos clássicos (ou típicos) da mensagem de DD: obter insights, visual atraente, rápido e dados vindos de qualquer tipo de fonte. Ou seja, mais um “me too”. O curioso, aqui, é que a MicroStrategy tradicionalmente faz exatamente isso – belas visualizações de dados, com alta performance. A parte “de qualquer tipo de fonte” é universal, já que qualquer ferramenta faz isso se jogada sobre um DW. Não sei se ele oferecem Data Blending (outra buzzword – mas isso fica para outro post.)

Repare que, ao contrário do SAS, não existe menção a funções analíticas sofisticadas ou avançadas – só visualizações e gráficos bonitos, rápidos e avançados.

Finalmente, eles oferecem uma lista de outras fontes de informação, muito curiosa:

  • Whitepaper: Checklist for Achieving BI Agility
  • Whitepaper: Enabling Data Discovery
  • Whitepaper: Three Reasons Why Data Discovery Falls Short (segundo eles, DD é útil, mas não é tudo)
  • Webcast: 7 Steps for Achieving BI Agility (que inclui um caso de DD com MicroStrategy)
  • Webcast: A Guide to Governed Data Discovery

Hmm… Eles entraram na onda ou não??

Teradata

O produto da Teradata, a empresa de big data antes do BigData, dos bancos de dados gigantescos e de altíssima performance (não tem tera no nome à toa) chama-se Aster, que oferece “poderosos insights através de uma solução integrada, otimizada para todos os dados, múltiplas análises e velocidade, com um esforço mínimo”. Não achei que o Aster responde por DD, mas como tanto via Google quanto via search field, os resultados são iguais, entendi que essa é a mensagem que a Teradata quer passar. Na minha opinião, faltaria a parte de visualização, mas ei, talvez DD não tenha mesmo nada a ver com visualização.

IBM

Tudo com a IBM é tão vasto, completo e complexo que até buscar produtos de DD deles, no Google, é uma tarefa difícil. O primeiro site que eu encontrei, depois de algumas tentativas, foi o VizWorld. O autor do post discute a nova oferta de produtos da IBM para DD na nuvem, e menciona um tal de projeto Neo, em beta ainda em novembro de 2013. Hm, sei, projeto Neo. Nem fui atrás.

Tentei o Google de novo e fui para um resultado que eu dispensei inicialmente: InfoSphere Discovery – eu confundira com WebSphere. InfoSphere é a linha de BI da IBM. Cavando um pouco cheguei a muitas outras coisas, mas em resumo, se existe DD para a IBM, ela se resume em três coisas: visualization, visualizationvisualization (Balmer ficaria orgulhoso.) Eles tem um motor de visualização adaptativa (RAVE), uma comunidade de especialistas de visualização (Many Eyes) etc. etc. etc.

E tem o Cognos, que a IBM comprou há algum tempo. Diferentes nomes, mesmas funções.

Agora eu me lembro porque eu nunca vi nada de BI da IBM – é tudo tãããooo difícil e abstrato…

SAP

SAP é outro mundo do tamanho da IBM. Eles têm produtos próprios de BI, relatórios, DW etc. Entre outras coisas, eles compraram um dos antigos nomes de BI, o Business Objects (BO.) Mas eu fiz uma pesquisa no Google por SAP data discovery e não veio nada disso. Veio um tal de SAP Lumira. Eis o que aparece no site deles:

Quickly build beautiful visualizations with just a few clicks. Combine data sources and get the big picture and granular details together. Visualize large volumes of data without having to sacrifice performance. Maximize data knowledge and drive immediate outcomes.

Preciso dizer mais? “Big Bad German Business Me Too”.

Excel

A Microsoft não reposicionou o Excel como ferramenta de BI, mas no fundo o Excel é o proverbial “lápis e papel” de BI. Excepcionalmente versátil, imensamente útil, o Excel é a ferramentra de BI por excelência. É nele que baixamos os dados para “fazer uma contas e ver se os números estão batendo”. Ele está muito longe de ser capaz de oferecer uma solução de BI, mas em princípio, está tudo lá.

Eu decidi incluir o Excel na lista porque a QlikTech o faz parecer uma ferramenta de DD: ele pode acessar uma enorme gama de dados e produzir fácil e rapidamente uma gama de boas (e até belas) visualizações de dados.

Claro que eu estou usando a palavra Excel como usamos Bombril: tanto poderia ser o Calc, do LibreOffice, quanto o próprio Excel. A categoria é Planilha Eletrônica. Mas ninguém compra palha de aço Brilhante – compramos Bombril mais barato!

Pentaho

Rapaz, a Pentaho é outro SAS. Tem muita coisa, e faz tudo mas (curiosamente) resolveu não investir no jargão DD. Eles criaram o deles (ah, tão SAS…), Data Blending (que eu também estou apanhando para captar, mas enfim, o problema aqui sou mesmo eu – ainda não parei para ir atrás.)

Seguindo a definição da QlikTech, por outro lado, o Pentaho BI Server EE é uma ferramenta de DD pois facilmente produz belos gráficos a partir de qualquer fonte de dados, sem intervenção do departamento de TI. O Pentaho CE também pode fazer isso, mas dá um pouco mais de trabalho. Além disso, também acessa qualquer fonte de dados. (Banco de dados 100% em memória não foi mencionado, mas o Pentaho também pode usar um se precisar.)

Finalmente, podemos juntar uma ferramenta de webmeeting, como o BigBlueButton ou OpenMeetings, para ter os times adhoc. Se o Pedro conseguir trazer para o CDE a facilidade do Pentaho EE Dashboard Designer, então o BI Server poderá oferecer infográficos adhoc. Isso completaria a visão de BI 3.0 da Panorama. O que também é uma opção para qualquer outra ferramenta. Nada mal.

Conclusão

O que é Data Discovery? Na minha opinião:

  1. Segundo a Wikipedia, é só uma nova buzzword do SAS, criada para substituir Data Mining;
  2. Segundo o mais importante player da área, a QlikTech, é uma ferramenta de análise de dados capaz de gerar belos gráficos;
  3. Segundo os outros fornecedores, incluindo a Pentaho, é folder fodder – só encheção de linguiça.

Por enquanto, a minha despretenciosa e ordinária pesquisa – a que qualquer um poderia fazer – chegou à conclusão que Data Discovery se trata de um termo específico da área, criado para diferenciar um fornecedor de outro no lotado mercado de ferramentas de BI. Em jargão castiço, Data Discovery é só uma buzzword.

Por inferência, a mesma conclusão espalha-se para Business Discovery.


A Seguir: O Que É Data Discovery, Parte 2 – Discussões no LinkedIn

Ok, então eu esgotei o que a minha parca competência de googlador profissional consegue me trazer. É hora de jogar a toalha e buscar o conselho dos meus pares da indústria de BI. É hora de postar a mesma pergunta no LinkedIn.

Semana que vem eu publicarei a resenha do livro Pentaho BA Cookbook, e depois (talvez) um post sobre o que destaca uma solução de BI de uma mera ferramenta. Daí, na semana seguinte, se eu conseguir, eu publicarei a segunda parte.

Tentem não me linchar – eu estou só compartilhando os meus pensamentos sobre a aventura que tem sido essa busca. Nada aqui tinha a menor intenção de ser minimamente formal ou definitivo, nem elogiar ou detratar ninguém. Se você discorda de algo que eu escrevi, é bem-vindo para comentar educadamente.

Até lá!

Reviewing Sergio Ramazzina’s New Book: Pentaho BA Cookbook

Sergio Ramazzina has published his new Packt work, Pentaho Business Analytics Cookbook. Happily, I was granted with a copy of it for reviewing. I am already reading it!

Pentaho BA Cookbook: A cookbook for fast and easy Business Analysis solutions

Pentaho BA Cookbook: A cookbook for fast and easy Business Analysis solutions

For those of you who don’t know him, Ramazzina is a seasoned BI professional with tons of experience on Pentaho – including authoring another best-selling Pentaho book, Pentaho Data Integration Kitchen.

Packt Pub. Celebrates 10 Years with US$10 Campaign!

Packt Publisher, the “We got IT covered” company, is celebrating 10 years this July 2014 with an offering on their site: every e-book and video on sale for US$10,00!

Packt slogan sounds like a weak pun, but in fact summarizes the truth: Think about a software – there are big chances Pack has a book on it. Not software, but hardware? Ok, they have it too! What about a supercluster with a thousand Raspberry Pis for a weekend project? (They have so many titles on so many things it is kind of ludicrous… Really! They’ve got a title blending Minecraft – yeah, the game – with hardware!!)

So, if you are in need of learning something about a software (be it Free or Proprietary) or hardware, give a look at Packt until tomorrow (July 5) to take advantage of a good offer. I bet you won’t regret it!

Packt Comemora 10 Anos com tudo a US$10!

Em julho a Editora Packt  completou 10 anos e lançou uma campanha: todos vídeos e e-books no site por US$10,00!

Imagine que você precisa aprender algo novo – seja por trabalho, por interesse particular, por qualquer motivo. Como fazemos hoje? Google! Tutorial, Passo-a-Passo, blogs, fóruns etc. etc. etc.

Bom, a Packt oferece centenas de livros para novatos e profissionais que precisem aprender algo sobre uma determinada tecnologia. Não é brincadeira: valem por um curso! Quer exemplos?

  • Vídeo Building a Data Mart with PDI: em um conjunto de vídeos com excelente qualidade de som e imagem você aprende como montar um Data Mart dimensional. Autor? Ninguém menos que o Diethard Steiner, um dos grandes profissionais Pentaho no mundo;
  • Livro Pentaho Data Integration Cookbook (2nd. Ed): a arca do tesouro do PDI!! Imperdível!
  • Livro Hadoop Beginner’s Guide: eu consegui montar um servidor Hadoop seguindo as orientações desse livro, que não apenas é muito bom, mas é gostoso de ler!
  • Livro HP Vertica Essentials: de novo, eu saí do zero e completei um servidor Vertica sozinho, sem precisar de Internet nem nada! Outra pérola!
  • Livro QlikView 11 for Developers: tudo que você sempre quis saber sobre o QV, mas não tinha na Internet! Finalmente consegui entender como o QV funciona (e desmistificar aquele “qualquer data, de qualquer lugar”! QV dá tanto trabalho quanto qualquer ferramenta!)
  • Livro Bonita Open Solution 5.x Essentials: outro caso de muita informação de qualidade e valor.
  • Data Mining (RapidMiner, R), Zabbix, Postgres, MySQL, Minecraft (!!!), Apache, Oracle, SQL Server, Closure, HTML5, PenTesting, jQuery, Spark, Lumion 3D, Raspberry Pi, OpenStack …

Putz… Acho que faz tempo que não leio nada que não venha da Packt (e olha que eu sou fã da Wiley!)

Enfim, você está trabalhando com TI? Precisa aprender a mexer com alguma tecnologia (hardware, software – livre _E_ proprietário), ou precisa melhorar? Está curioso e quer brincar com robôs ou automação do lar? A Packt tem – e é bom!

A promoção acaba amanhã, 5 de julho, mas ainda dá tempo: dê um passeio no site deles, você não vai se arrepender.

O Que Leva à Alta Performance?

Michael Porter, da Harvards Business School, diz que o rendimento de uma empresa é empurrado por dois fatores: estratégia e execução.

Phil Rosenzweig escreveu em seu livro The Halo Effect (com a tradução Derrubando Mitos) que, se isso é verdade, então tocar uma empresa com sucesso é uma coisa arriscada pelo simples fato de que nada dá a menor garantia que escolheremos sempre a estratégia vencedora, ao invés de alguma outra estratégia furada.

Não bastasse a dificuldade na escolha da estratégia, a execução dela também é um desafio de porte semelhante. Coisas que funcioaram para uma empresa não necessariamente vão funcionar para outra. Coisas que deram certo no passado ou em outro mercado, podem não dar certo agora, para sua empresa. Ou seja, a execução é algo que também depende de sorte e de alguma experimentação. Claro que existem coisas que são atemporais e independente de mercados ou indústrias – gestão de pessoas, finanças, estoque, algumas automações etc. Uma empresa depende de tantos processos e de tanta gente para funcionar que uma parte dela, com certeza, será particular ou diferente do restante.

Não sei se consegui me fazer entender, e por isso aqui vai o resumo:

  • Duas das maiores e mais afinadas mentes científicas de nosso tempo argumentam que o sucesso de uma empresa depende de sua estratégia e da execução dessa;
  • Adotar uma estratégia é igual a descartar TODAS as outras estratégias possíveis;
  • Não é possível saber de antemão qual estratégia vai dar certo, e qual vai dar errado;
  • Implantar (executar) essa estratégia é algo que depende de conhecimento, experimentação e sorte.

Melhorou? Leiam o livro do Rosenzweig para uma iluminação maior, mas se você acha que entendeu a lista acima, beleza, consegui o que eu queria. Próxima pergunta:

Como Escolher uma Estratégia?

O Rosenzweig discute isso brevemente. Resumindo, não dá para competir com todo mundo, em todos os mercados, oferecendo todos os produtos para todos os clientes. É preciso fazer escolhas, é preciso tomar decisões, como por exemplo:

  1. Em que mercado vamos atuar?
  2. Que produto vamos oferecer?
  3. Contra quem vamos concorrer?
  4. Vamos vender por menos que a concorrência, ou cobrar um prêmio por mais qualidade/conteúdo/rendimento/etc?
  5. Quanto os clientes estão dispostos a pagar?

Como Executar a Estratégia?

Larry Bossid disse que “Nenhuma estratégia entrega resultados a menos que convertida em ações específicas.” Uma vez que a estratégia foi escolhida, a execução precisa ser suficiente e isso implica em fazer mais escolhas. É irreal pretender executar 100% das atividades possíveis e ter 100% de qualidade em 100% das vezes. É preciso escolher no que investir tempo e recursos, e decidir que atividades serão deixadas de lado ou terão menos atenção.

A diferença entre a execução e a estratégia é que a estratégia depende muito do que está fora da empresa, e a execução depende quase que totalmente do que está dentro da empresa.

Ou seja, se a sua empresa ainda não existe, se ela é só um Plano de Negócios, você precisa de dados gerados por outrem. Você não tem nada, e precisa pesquisar tudo. Você ainda não sabe nada sobre seu (futuro) negócio, tudo são estimativas, chutes e palpites.

Você faz o melhor que pode para tirar a empresa do papel, e durante um tempo voa por instrumentos, meio às cegas, contando com a melhor informação que você conseguiu acumular e seu taco para o negócio.

Uma vez que sua empresa passou a existir, dados começaram a ser gerados – pedidos, itens produzidos, serviços prestados, clientes adquiridos e perdidos, lucratividade, competição, market share etc. etc. etc. A partir daí você pode avaliar se está indo bem ou não. Você consegue dizer se está executando bem, ou não, se sua estratégia está dando certo, ou não.

Inteligência de Negócios, Estragégia & Execução

Rosenzweig conclui, no capítulo nove do Halo Effect, que executar brilhantemente uma estratégia de sucesso pode levar uma empresa à falência. Se o mercado mudar, se a tecnologia mudar, se a concorrência mudar – se alguma coisa mudar o mundo no qual sua empresa existe –  sua empresa vai ficar vulnerável, e a única forma de lidar com isso é estar sempre atento e, eventualmente, decidir mudar de estratégia, antes que seja tarde demais. No final deste capítulo, Rosenzweig cita Tom Peter de novo:

Para ser excelente, você precisa ser consistente. Quando você é consistente, você é vulnerável a ataques. Sim, é um paradoxo. Vire-se com isso.

E como você decide que é hora de mudar de estratégia? Como você descobre se o problema não é estratégia, mas sim execução? Ou o inverso?

Uma empresa é uma coisa viva, que existe em um mundo em constante mutação. Organizações podem ser entendidas em si, e em seu meio-ambiente, por um único indivíduo até certo tamanho: uma padaria, uma farmácia, uma escola – um supermercado, talvez. Acima de um certo tamanho, as interações dentro da empresa, e da empresa com o meio externo são tão numerosas e complexas que uma só pessoa não consegue abarcar em sua mente toda aquela informação e tirar sentido dela. A partir de um certo tamanho, repensar a estratégia e avaliar a execução passa a ser uma tarefa sobre-humana.

E é nesse ponto que se encontra o valor da Inteligência de Negócios. A captura e análise sistemática de todos os dados que sua empresa gera, e se possível, dados do mercado e dos clientes, só pode ser feita com ferramentas específicas. Essas ferramentas se separam em duas categorias: acúmulo de dados e análise de dados. Armazéns de Dados (Data Warehouses) cuidam do acúmulo. Ferramentas como OLAP e Data Mining cuidam da segunda. Recursos de apresentação, como painéis e relatórios, comunicam os resultados para a empresa, e servem como guias para avaliar o risco da estratégia atual, para avaliar a qualidade da execução em curso.

Inteligência de Negócios é a disciplina que habilita uma empresa a buscar alto rendimento.

Juntando à conclusão do post anterior:

Inteligência de Negócios é a disciplina que habilita uma empresa a buscar alto rendimento através da compreensão de seu negócios mediante a aplicação do Método Científico.

Fechou, é isso. Até a próxima.

Lavando Louça (ou Paz, Afinal III)

Todo mundo que lava louça em casa sabe que essa é uma atividade mecânica, meio que automática depois de um tempo, e também sabe que nesta situação a mente fica ociosa e acabamos pensando em qualquer coisa.

Bom, então, eu estava lavando louça esses dias e me lembrei de uma conversa que eu tive no LinkedIn, e só então me dei conta da importância do que foi discutido. O restante da discussão não vem ao caso, mas eu posso contar o santo: o autor, Diego Elias, propunha uma contextualização de BigData em BI. No meio da conversa eu soltei:

No meio da bagunça (entendeu o lance das faixas pretas?) eu soltei essa.

No meio da bagunça (entendeu o lance das faixas pretas?) eu soltei essa.

Try to See the Truth:

There Is No Spoon.

Eu simplesmente não aguento mais fazer posts sobre definições de coisas fundamentais, e o mundo está até as tampas de literatura especializada, feita por gente muito melhor do que eu, de modo que tudo que eu possa falar é completamente redundante. Mesmo assim…

Mesmo assim, nas minhas turmas de BI eu sempre faço questão de insistir em um ponto:

Try to see the truth: There is no BI.

Try to see the truth: There is no BI.

Neste slide eu sempre mango do Matrix: tente ver a verdade, não existe BI. O slide diz tudo, mas não custa reforçar: BI é uma disciplina, da qual software-houses e fabricantes de hardware se apoderaram, ao ponto de existir uma carreira de Administração de Empresas, mas não uma de Inteligência de Negócios! BI está virando uma piada, como aquela sobre hardware e software(*1), “BI é quem toma a decisão errada, Administração é quem enfia o pé na jaca”.

E, se eu não me engano, até comentei essa idéia com um grande amigo da USP, durante o Pentaho Day de 2014.

Simplesmente

Taylor, em seu seminal livro, preconiza que a gestão empresarial deveria ser uma ciência, com movimentos friamente calculados e ponderados de antemão. É uma idéia tão forte e com tanto apelo que ninguém conseguiu, até hoje, deslocá-la. Todos reconhecem que Administração não uma ciência “no duro”, principalmente porque não é possível criar empresas em placas de Petri, mas mesmo assim tentamos nos cercar de fatos testados para conduzir uma empresa. Por isso fazemos pesquisas de opinião no mercado, por isso entrevistamos e testamos nossos candidatos antes de contratá-los, por isso medimos e tentamos controlar a qualidade dos produtos e processos.

Porque simplesmente faz sentido.

Simplesmente faz sentido relacionar causa (ferramentas sujas, falta de habilidade, material de baixa qualidade) com o efeito (produtos feios, mal-feitos, ordinários.)

Simplesmente faz sentido examinar os números da empresa para descobrir que história eles contam.

Paz, Afinal III: O que é Inteligência de Negócios

Simplesmente:

Inteligência de Negócios é a disciplina de busca da compreensão dos negócios de uma organização mediante a aplicação do Método Científico.

Eu entrei no SAS em abril de 2000. Fiz essa pergunta a um sem-número de pessoas, começando pela Country Manager do SAS em 2000 (é tomar decisões com ferramentas – grosso modo, já não me lembro bem o que ela falou), passando por todos os meus colegas de SAS, depois por um VP de vendas do SAS, daí para pessoas em indústrias, bancos, varejo, o pessoal da MicroStrategy, várias pessoas no meu emprego, fóruns etc. Sem contar os livros que eu li (li tanto que um dia botei tudo para fora e escrevi meu próprio) e mesmo assim eu não tinha nenhuma resposta. Nenhuma boa o bastante, simples o bastante, nenhuma que eu pudesse ler quando não soubesse o que fazer, que caminho seguir. Eu costumava usar a do livro do Swain Scheps, BI for Dummies, e ela fazia isso por mim.

Eu procuro essa definição há quase 15 anos. Obviamente eu não perguntei à pessoa certa, e deixei de ler exatamente o livro que tinha essa definição. Infelizmente eu continuo não sabendo qual é – quem sabe um dia eu encontro um dos dois. ;-)

Até a próxima.


 

(*1) Odeio notas-de-rodapé, mas não queria quebrar o raciocínio lá em cima: perguntado sobre a diferença entre hardware e software, o cara responde que “hardware é o que você chuta, software é o que você xinga”. :-) É engraçado porque é verdade…

Como um Data Vault Evolui

Ontem eu estava mexendo no meu projeto de DV de estimação (um aconselhamento que presto a um amigo) e descobri uma coisa: o satélite dos dados dos empregados tinha centenas de registros por empregado. Eu fui olhar de perto e descobri que não eram centenas, mas sim um por dia desde o início da captura dos dados. Para um DV, isso significa que a cada refresh (que é diário neste caso) o ETL está versionando o satélite de empregados. Como isso só aconteceria se todo dia houvesse alguma diferença para a última versão, eu decidi analisar os registros, comparando as versões de satélites para um empregado qualquer.

Eu vou mostrar algumas imagens para ilustrar o que eu fiz, mas saibam que todos os nomes foram mudados para coisas mais óbvias, e campos particulares (que possuíam detalhes da arquitetura do sistema) foram removidos. São ilustrações, não são o caso real, ok? Exceto por esse detalhe, todo o restante é a narração fiel do que eu fiz.

O satélite Empregado, mostrado na figura abaixo junto ao hub Empregado, tem cerca de 13 campos do sistema de origem, mais 4 de controle do DV.

Satélite empregado original, com todos os campos em uma única tabela.

Satélite empregado original, com todos os campos em uma única tabela.

Todos esses campos estão em uma única tabela no sistema de origem, de modo que a carga desse pedaço do modelo é feito por duas transformações: uma de hub e uma de satélite.

Eu descobri, depois de analisar o conteúdo do satélite, que três campos eram atualizados sempre que o empregado chegava para trabalhar e depois ia embora:

  • emp_ultimo_acesso
  • emp_ultimo_ip
  • emp_ultima_sessao

Na verdade, sempre que o empregado fazia login (e depois logoff) em qualquer computador na empresa, esses detalhes são atualizados. Resultado: todo dia eles estavam diferentes do dia anterior, a menos que o empregado tivesse faltado, ou o dia anterior fosse um feriado/fim-de-semana. Portanto, todo dia um novo satélite era carregado, e isso estava correto. O ETL estava fazendo o que havia sido programado para fazer.

Satélites Separados

Temos aqui uma situação clássica para Data Vault: o sistema de origem tem taxas de atualização diferente entre os atributos. Alguns são atualizados uma vez na vida e outra na morte, e outros são alterados todos os dias, quando não várias vezes por dia. Se capturarmos todos os registros na mesma tabela estaremos desperdiçando tempo e espaço em disco, tratando e gravando coisas duplicadas, desnecessariamente.

Neste caso optamos por quebrar um satélite em dois ou mais, em função de sua taxa de atualização: um satélite conterá apenas os três campos que mudam todos os dias, e o outro satélite ficará com os campos mais estáveis. Cada um terá sua própria transformação para carga. No final, nosso DV vai ficar assim:

Satélite Empregado, agora quebrado em duas tabelas em função da taxa de atualização.

Satélite Empregado, agora quebrado em duas tabelas em função da taxa de atualização.

Aplicando a Mudança

Antes havia um satélite (=uma tabela), com todos os campos, carregada por uma transformação. Depois teremos duas tabelas, cada qual com seu conjunto de campos, e cada qual carregada por sua transformação. Eis o passo-a-passo que eu passei para meu amigo aplicar em produção:

  1. Renomear o satélite original para s_empregado_antigo;
  2. Criar as duas novas tabelas, s_empregado e s_empregado_1;
  3. Popular cada uma com o histórico atual;
  4. Apagar o satélite original;
  5. Subir as duas novas transformações.

As novas tabelas foram criadas e populadas de uma só vez com um SELECT INTO (o DV está em Postgres, o que facilita tudo.) As transformações foram criadas semi-automaticamente (basta entrar os nomes das tabelas, campos e da transformação e um script parametrizado gera tudo sozinho.)

Pronto! Quinze minutos depois de diagnosticar o problema eu tinha desenhado a solução. Meu amigo avisou que aplicou e deu tudo certo e agora vai propagar a solução para outros satélites (ele tem vários desses com status instantâneo.)

(Bom, vá lá, eu demorei um pouco mais que quinze minutos porque deu um trabalhinho até eu acertar o SELECT – ele precisava manter o histórico, o que significa dois SELECT DISTINCTs, com ORDER BY etc. Mas agora eu já sei o macete, e da próxima vez vai ser só 15min mesmo!)

Outras Quebras

Outras opções de quebras para satélites são por sistema de origem, que dá a vantagem de integrar os dados já no DV, e por particionamento. Neste último podemos deslocar satélites estáveis para outras mídias (outros tablespaces), e continuar a carregar os novos em uma tabela menor.

O Que Kimball Faria?

Meu grande amigo Gurgel que me perdoe, mas eu não vou nem considerar essa situação na 3NF. Agora, como ficaria essa situação em um Modelo Dimensional?

Na verdade, ficaria muito bem, obrigado! Veja, Modelagem Dimensional é uma técnica resiliente e robusta, com muita flexibilidade. Teríamos praticamente a mesma abordagem: quebrar uma tabela (de dimensão) em duas, criar dois novos processos de cargas (duas novas transformações), e recriar a fato, agora com duas chaves no lugar de uma só.

Factível, viável e simples, sim. Interessante? Não tenho certeza: hoje esses dados não possuem nenhum interesse para o negócio do meu amigo. São dados que ele descartaria sem pensar duas vezes – e foi essa a primeira sugestão dele. Saber qual é a hora do último logoff de cada empregado não tem o menor impacto no rendimento da empresa, nem a menor relação com a produtividade desse empregado. É um dado pura e simplesmente inútil, e só entrou no satélite porque simplificamos o levantamento de requisitos ao mínimo essencial – o também clássico carrega tudo!.

O Que Linstedt Faria?

Tá bom, saber quando o empregado fez o último logoff do dia é inútil. Mas e saber o histórico completo de todos os logins e logoffs, interessa?

Veja, estamos falando de capturar todas as mudanças, até mesmo em tempo real se for necessário. Para conseguir isso, sem gastar muito, basta rodar apenas a transformação que carrega esse satélite (com um ajuste para a variável de tempo – detalhes que não vêm ao caso agora…) a cada hora ou minuto. Com algumas centenas de empregados esse processo seria muito leve.

No caso mais extremo, dá para agendar uma PROC no banco que faça isso, e descartar o PDI completamente, reduzindo ainda mais o impacto da captura de histórico.

Com esses dados, novas perguntas são possíveis:

  • Será que um empregado que entra e sai do sistema várias vezes produz menos?
  • Preciso me preocupar com isso?

Um modelo dimensional permite capturar isso se você quiser. Basta montar uma estrela só para isso, já que esse vai ser o processo de negócio em análise.

Agora, e aqui vem uma das coisas legais do DV, um Data Vault te permite capturar isso já integrado com os outros satélites, o hub e tudo o mais. Um bom desenhista dimensional sabe que a técnica do Kimball também te dá essa possibilidade. Mas quanto mais você extende seu DW Dimensional com esse tipo de recurso, mais chega perto de um modelo Data Vault! A quantidade de dimensões e inter-relações (o Bus Matriz) começa a crescer, e a gestão vai ficando cada vez mais difícil. Apesar de flexível, a Modelagem Dimensional não é pensada para acumular dados, mas para análisá-los e por isso, cedo ou tarde, se seu DW muda com frequẽncia, um DV vai se tornar uma alternativa interessante.

E então você vai testar, só para ver como seria. E, então, já será tarde demais. Você será fisgado, como eu fui.

Até a próxima! Fui! :-)

Seguir

Obtenha todo post novo entregue na sua caixa de entrada.

Junte-se a 83 outros seguidores