Lavando Louça (ou Paz, Afinal III)

Todo mundo que lava louça em casa sabe que essa é uma atividade mecânica, meio que automática depois de um tempo, e também sabe que nesta situação a mente fica ociosa e acabamos pensando em qualquer coisa.

Bom, então, eu estava lavando louça esses dias e me lembrei de uma conversa que eu tive no LinkedIn, e só então me dei conta da importância do que foi discutido. O restante da discussão não vem ao caso, mas eu posso contar o santo: o autor, Diego Elias, propunha uma contextualização de BigData em BI. No meio da conversa eu soltei:

No meio da bagunça (entendeu o lance das faixas pretas?) eu soltei essa.
No meio da bagunça (entendeu o lance das faixas pretas?) eu soltei essa.

Try to See the Truth:

There Is No Spoon.

Eu simplesmente não aguento mais fazer posts sobre definições de coisas fundamentais, e o mundo está até as tampas de literatura especializada, feita por gente muito melhor do que eu, de modo que tudo que eu possa falar é completamente redundante. Mesmo assim…

Mesmo assim, nas minhas turmas de BI eu sempre faço questão de insistir em um ponto:

Try to see the truth: There is no BI.
Try to see the truth: There is no BI.

Neste slide eu sempre mango do Matrix: tente ver a verdade, não existe BI. O slide diz tudo, mas não custa reforçar: BI é uma disciplina, da qual software-houses e fabricantes de hardware se apoderaram, ao ponto de existir uma carreira de Administração de Empresas, mas não uma de Inteligência de Negócios! BI está virando uma piada, como aquela sobre hardware e software(*1), “BI é quem toma a decisão errada, Administração é quem enfia o pé na jaca”.

E, se eu não me engano, até comentei essa idéia com um grande amigo da USP, durante o Pentaho Day de 2014.

Simplesmente

Taylor, em seu seminal livro, preconiza que a gestão empresarial deveria ser uma ciência, com movimentos friamente calculados e ponderados de antemão. É uma idéia tão forte e com tanto apelo que ninguém conseguiu, até hoje, deslocá-la. Todos reconhecem que Administração não uma ciência “no duro”, principalmente porque não é possível criar empresas em placas de Petri, mas mesmo assim tentamos nos cercar de fatos testados para conduzir uma empresa. Por isso fazemos pesquisas de opinião no mercado, por isso entrevistamos e testamos nossos candidatos antes de contratá-los, por isso medimos e tentamos controlar a qualidade dos produtos e processos.

Porque simplesmente faz sentido.

Simplesmente faz sentido relacionar causa (ferramentas sujas, falta de habilidade, material de baixa qualidade) com o efeito (produtos feios, mal-feitos, ordinários.)

Simplesmente faz sentido examinar os números da empresa para descobrir que história eles contam.

Paz, Afinal III: O que é Inteligência de Negócios

Simplesmente:

Inteligência de Negócios é a disciplina de busca da compreensão dos negócios de uma organização mediante a aplicação do Método Científico.

Eu entrei no SAS em abril de 2000. Fiz essa pergunta a um sem-número de pessoas, começando pela Country Manager do SAS em 2000 (é tomar decisões com ferramentas – grosso modo, já não me lembro bem o que ela falou), passando por todos os meus colegas de SAS, depois por um VP de vendas do SAS, daí para pessoas em indústrias, bancos, varejo, o pessoal da MicroStrategy, várias pessoas no meu emprego, fóruns etc. Sem contar os livros que eu li (li tanto que um dia botei tudo para fora e escrevi meu próprio) e mesmo assim eu não tinha nenhuma resposta. Nenhuma boa o bastante, simples o bastante, nenhuma que eu pudesse ler quando não soubesse o que fazer, que caminho seguir. Eu costumava usar a do livro do Swain Scheps, BI for Dummies, e ela fazia isso por mim.

Eu procuro essa definição há quase 15 anos. Obviamente eu não perguntei à pessoa certa, e deixei de ler exatamente o livro que tinha essa definição. Infelizmente eu continuo não sabendo qual é – quem sabe um dia eu encontro um dos dois. ;-)

Até a próxima.


 

(*1) Odeio notas-de-rodapé, mas não queria quebrar o raciocínio lá em cima: perguntado sobre a diferença entre hardware e software, o cara responde que “hardware é o que você chuta, software é o que você xinga”. :-) É engraçado porque é verdade…

Data Mining Papo Reto

Está lá na Wikipedia:

Data mining (…) is the computational process of discovering patterns in large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems. The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use.

Ou em tradução livre:

Garimpagem de dados é o processo computacional de descoberta de padrões em grandes conjuntos de dados envolvendo métodos na intersecção de inteligência artificial, aprendizado de máquina, estatística e sistemas de bancos de dados. O objetivo dominante do processo de garimpagem de dados é extrair informação de um conjunto de dados e transformá-la em uma estrutura inteligível para uso subsequente.

Correto, claro, e sem dúvida eu concordo com isso. É o que falam no SAS (meu marco zero de BI – vem do SAS, é BI) e é o que se fala “por aí”.

Mas é uma pílula dourada.

Pílula Dourada

Dourar a pílula é tornar algo (tipicamente desconfortável) mais deglutível, mais fácil de engolir. A definição de Data Mining propalada aos quatro ventos por toda comunidade internacional de BI é um texto para tentar fazer algo insosso, insípido, incoloro e inodoro, mas muito grande e espinhoso, ser engolido por consumidores de BI. No fundo, Data Mining nada mais é que a boa e velha Ciência em ação. Na cabeça do não-cientista, Ciência e “ganhar dinheiro” não se misturam. Mesmo quando alguém  funda uma companhia sem uma única linha de produção física, sem mover um único grama de nada para fora dos seus muros baseado apenas em um algoritmo computadorizado, ninguém nota que Ciência foi usada para “ganhar dinheiro”.

Ciência & Grana

Que coisa, não?A palvra diz tudo: Ciência = Saber = Poder.

Como então Ciência não tem relação com dinheiro? Talvez Ciência pura não gere produtos comercializáveis imediatamente (vide Mecânica Quântica), mas o nosso mundo é construído a base de MUITA Ciência: da água que bebemos, expelimos e é tratada, ao descanso da mente (Lazer), passando por comida (morra de raiva, Malthus!), Saúde, vestuário, Educação, Habitação etc. etc. etc.

(Como alguém pode estar vivo hoje e achar que vai se dar bem sem estudar??)

Inteligência de Negócios em última análise é mero “saber”, mera “ciência” da realidade da empresa e do mundo. O problema é simples quando você tem poucos dados – poucos clientes, produtos e vendas, poucos alunos, poucos cidadãos, poucos crimes – mas piora cada vez mais rapidamente quando o volume de dados aumenta. Quando você é a Amazon e tem mihões de clientes, milhões de vendas e centenas de milhares de produtos, então, isso vira um pesadelo.

Quem te salvará? A Ciência.

Modelos, Modelos, Modelos

Nenhum um único ser vivente na face da Terra jamais viu e jamais verá um átomo. É uma impossibilidade biológica, física. Mas não resta muita dúvida sobre o fato de que átomos devem existir. Como? Ora, se você presumir que existem átomos, que eles devem se comportar assim e assado, e devem reagir desta ou daquela forma, então podemos montar experimentos e testar nossa pré-suposição. E foi o que aconteceu: cientistas ao longo de décadas executaram inúmeros experimentos que comprovam a existência de alguma coisa invisível a olho nu, que organiza a matéria ao nosso redor.

Permitam-me frisar: uma suposição pode ser confirmada ou rejeitada por meio de testes. Como chegamos a uma suposição?

Olhando! Cutucando! Pensando!

Todos nós conhecemos a história da maçã que bateu no cocoruto de Newton, que então estalou os dedos e disse “Gravidade!” – hehe. Quanto mais precisos se tornam nossos instrumentos, mais precisas se tornam nossas análises. Quanto mais minucioso se torna nosso exame de algo, mais oportunidades aparecem. O fato é que nunca se sabe o que virá pela frente, mas a persistência na investigação cedo ou tarde traz algum resultado – mesmo que seja “não há nada aí”.

E é isso que é Garimpagem de Dados: uma investigação cuidadosa, sistemática e minuciosa da realidade tal como o “negócio” a vê, através de instrumentos e métodos especiais para o assunto. Data Mining não é nada mais, nada menos que o trabalho de se construir um modelo matemático que permita inferir coisas ainda ignoradas sobre a realidade. Só.

Bateia, Riacho, Pepita

Um cientista mete-se num laboratório e observa um evento. Ele repete a experiência, anotando os resultados, de novo e de novo. Depois ele se senta com papel e lápis e começa a desenhar: será que o peso da amostra muda o resultado? Sim? Não? Por quanto? Será que a luz muda o resultado?

As perguntas vêm da mera convivência com o assunto. Coulomb intuiu sua lei partindo de uma correlação entre campo elétrico e campo gravitacional, massa e carga e finalmente apostando que deveria haver uma lei para campos elétricos semelhante a que já se conhecia sobre a Gravitação. Ele supôs, testou e – bing! – mais uma lei da Física!

Na Corrida do Ouro dos EUA as pessoas compravam bateias e sumiam dentro do território, passando dias, semanas, meses, garimpando os riachos da Califórnia. Cuidadosamente, dedicadamente, catavam o cascalho do fundo dos rios em busca de ouro. De repente, sorte grande, um canto do rio dava uma, duas, dezenas de pepitas e o sortudo enriquecia de uma hora para outra, literalmente.

Bom, “fazer” Data Mining é exatamente isso: continuamente uma bateia, feita de bancos de dados, técnicas de modelagem matemática, conhecimento de negócio e intuição, pega o cascalho de dados do fundo do mar de dados de uma empresa e vai jogando fora o que não presta. Na maior parte das vezes vai tudo embora e o processo recomeça, mas de repente BINGO! Um veio de dados rico em significado, capaz de ser modelado e usado para prever o futuro é encontrado.

Troque cientista por cientista (hehe), laboratório por DW e experimento por venda, e releia o parágrafo do início desta seção. Entendeu?

Serra Pelada vs. Alaska

Há uma grande diferença entre o processo industrializado de extrair mineral de minas como as que vemos aqui no Brasil, em que caminhões saem carregados de minério de dentro de túneis mastodônticos, e o processo manual, lento e trabalhoso de garimpar o fundo de um rio, ou cavar uma daquelas minas que normalmente aparecem em desenhos animados. Os fornecedores de ferramentas de Data Mining querem que você acredite que é só meter a pá, peneirar e conseguir ouro em pó do chão sujo. Mas a pílula dourada do começo do post diz que na verdade você vai é ter muito trabalho, e do tipo “muito especializado”, para arrancar qualquer pequena pepita que seja. E dificilmente vai ser do chão sujo.

Há os tais dos “low hanging fruits”, os frutos ao alcance da mão, mas esses normalmente tem pouco valor ou precisam de algum modelo matemático. Exemplo? Fácil: grandes sazonalidades, visíveis em um gráfico de meses ao longo do ano. Ou grandes grupos – homens gostam de futebol, mulheres de novela, crianças de desenhos animados.

Mas se você quiser prever a demanda de televisores de alta definição em cada cidade, ou a chance de fraude, ou o risco de um empréstimo, ou o impacto da campanha do Facebook sobre as suas vendas em lojas físicas, nada vai te ajudar a não ser conhecimento hard core (isto é, um cientista – e não um de dados, um de verdade: Físico, Estatístico, Matemático etc.) e know-how (afinal, a teoria na prática é outra.)

Conclusão

Data Mining é o processo de criar um modelo matemático que explique uma realidade observada dentro da empresa.

Quem cria modelos matemáticos são cientistas hard-core, daqueles de jalecos com seis canetas no bolso (a maioria traja roupas sociais, mas é um disfarce!)

Qualquer um pode fazer Data Mining? Claro, todo mundo pode cozinhar. Todo mundo pode usar uma ferramenta. Ser um Adrian, saber usar e saber fazer, porém, já e outra coisa. Requer formação especializada e prática. Usar uma ferramenta não vai te tornar um cozinheiro de mão cheia, mas no máximo um chapeiro de marca.

É isso! ;-)