Está lá na Wikipedia:

Data mining (…) is the computational process of discovering patterns in large data sets involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems. The overall goal of the data mining process is to extract information from a data set and transform it into an understandable structure for further use.

Ou em tradução livre:

Garimpagem de dados é o processo computacional de descoberta de padrões em grandes conjuntos de dados envolvendo métodos na intersecção de inteligência artificial, aprendizado de máquina, estatística e sistemas de bancos de dados. O objetivo dominante do processo de garimpagem de dados é extrair informação de um conjunto de dados e transformá-la em uma estrutura inteligível para uso subsequente.

Correto, claro, e sem dúvida eu concordo com isso. É o que falam no SAS (meu marco zero de BI – vem do SAS, é BI) e é o que se fala “por aí”.

Mas é uma pílula dourada.

Pílula Dourada

Dourar a pílula é tornar algo (tipicamente desconfortável) mais deglutível, mais fácil de engolir. A definição de Data Mining propalada aos quatro ventos por toda comunidade internacional de BI é um texto para tentar fazer algo insosso, insípido, incoloro e inodoro, mas muito grande e espinhoso, ser engolido por consumidores de BI. No fundo, Data Mining nada mais é que a boa e velha Ciência em ação. Na cabeça do não-cientista, Ciência e “ganhar dinheiro” não se misturam. Mesmo quando alguém  funda uma companhia sem uma única linha de produção física, sem mover um único grama de nada para fora dos seus muros baseado apenas em um algoritmo computadorizado, ninguém nota que Ciência foi usada para “ganhar dinheiro”.

Ciência & Grana

Que coisa, não?A palvra diz tudo: Ciência = Saber = Poder.

Como então Ciência não tem relação com dinheiro? Talvez Ciência pura não gere produtos comercializáveis imediatamente (vide Mecânica Quântica), mas o nosso mundo é construído a base de MUITA Ciência: da água que bebemos, expelimos e é tratada, ao descanso da mente (Lazer), passando por comida (morra de raiva, Malthus!), Saúde, vestuário, Educação, Habitação etc. etc. etc.

(Como alguém pode estar vivo hoje e achar que vai se dar bem sem estudar??)

Inteligência de Negócios em última análise é mero “saber”, mera “ciência” da realidade da empresa e do mundo. O problema é simples quando você tem poucos dados – poucos clientes, produtos e vendas, poucos alunos, poucos cidadãos, poucos crimes – mas piora cada vez mais rapidamente quando o volume de dados aumenta. Quando você é a Amazon e tem mihões de clientes, milhões de vendas e centenas de milhares de produtos, então, isso vira um pesadelo.

Quem te salvará? A Ciência.

Modelos, Modelos, Modelos

Nenhum um único ser vivente na face da Terra jamais viu e jamais verá um átomo. É uma impossibilidade biológica, física. Mas não resta muita dúvida sobre o fato de que átomos devem existir. Como? Ora, se você presumir que existem átomos, que eles devem se comportar assim e assado, e devem reagir desta ou daquela forma, então podemos montar experimentos e testar nossa pré-suposição. E foi o que aconteceu: cientistas ao longo de décadas executaram inúmeros experimentos que comprovam a existência de alguma coisa invisível a olho nu, que organiza a matéria ao nosso redor.

Permitam-me frisar: uma suposição pode ser confirmada ou rejeitada por meio de testes. Como chegamos a uma suposição?

Olhando! Cutucando! Pensando!

Todos nós conhecemos a história da maçã que bateu no cocoruto de Newton, que então estalou os dedos e disse “Gravidade!” – hehe. Quanto mais precisos se tornam nossos instrumentos, mais precisas se tornam nossas análises. Quanto mais minucioso se torna nosso exame de algo, mais oportunidades aparecem. O fato é que nunca se sabe o que virá pela frente, mas a persistência na investigação cedo ou tarde traz algum resultado – mesmo que seja “não há nada aí”.

E é isso que é Garimpagem de Dados: uma investigação cuidadosa, sistemática e minuciosa da realidade tal como o “negócio” a vê, através de instrumentos e métodos especiais para o assunto. Data Mining não é nada mais, nada menos que o trabalho de se construir um modelo matemático que permita inferir coisas ainda ignoradas sobre a realidade. Só.

Bateia, Riacho, Pepita

Um cientista mete-se num laboratório e observa um evento. Ele repete a experiência, anotando os resultados, de novo e de novo. Depois ele se senta com papel e lápis e começa a desenhar: será que o peso da amostra muda o resultado? Sim? Não? Por quanto? Será que a luz muda o resultado?

As perguntas vêm da mera convivência com o assunto. Coulomb intuiu sua lei partindo de uma correlação entre campo elétrico e campo gravitacional, massa e carga e finalmente apostando que deveria haver uma lei para campos elétricos semelhante a que já se conhecia sobre a Gravitação. Ele supôs, testou e – bing! – mais uma lei da Física!

Na Corrida do Ouro dos EUA as pessoas compravam bateias e sumiam dentro do território, passando dias, semanas, meses, garimpando os riachos da Califórnia. Cuidadosamente, dedicadamente, catavam o cascalho do fundo dos rios em busca de ouro. De repente, sorte grande, um canto do rio dava uma, duas, dezenas de pepitas e o sortudo enriquecia de uma hora para outra, literalmente.

Bom, “fazer” Data Mining é exatamente isso: continuamente uma bateia, feita de bancos de dados, técnicas de modelagem matemática, conhecimento de negócio e intuição, pega o cascalho de dados do fundo do mar de dados de uma empresa e vai jogando fora o que não presta. Na maior parte das vezes vai tudo embora e o processo recomeça, mas de repente BINGO! Um veio de dados rico em significado, capaz de ser modelado e usado para prever o futuro é encontrado.

Troque cientista por cientista (hehe), laboratório por DW e experimento por venda, e releia o parágrafo do início desta seção. Entendeu?

Serra Pelada vs. Alaska

Há uma grande diferença entre o processo industrializado de extrair mineral de minas como as que vemos aqui no Brasil, em que caminhões saem carregados de minério de dentro de túneis mastodônticos, e o processo manual, lento e trabalhoso de garimpar o fundo de um rio, ou cavar uma daquelas minas que normalmente aparecem em desenhos animados. Os fornecedores de ferramentas de Data Mining querem que você acredite que é só meter a pá, peneirar e conseguir ouro em pó do chão sujo. Mas a pílula dourada do começo do post diz que na verdade você vai é ter muito trabalho, e do tipo “muito especializado”, para arrancar qualquer pequena pepita que seja. E dificilmente vai ser do chão sujo.

Há os tais dos “low hanging fruits”, os frutos ao alcance da mão, mas esses normalmente tem pouco valor ou precisam de algum modelo matemático. Exemplo? Fácil: grandes sazonalidades, visíveis em um gráfico de meses ao longo do ano. Ou grandes grupos – homens gostam de futebol, mulheres de novela, crianças de desenhos animados.

Mas se você quiser prever a demanda de televisores de alta definição em cada cidade, ou a chance de fraude, ou o risco de um empréstimo, ou o impacto da campanha do Facebook sobre as suas vendas em lojas físicas, nada vai te ajudar a não ser conhecimento hard core (isto é, um cientista – e não um de dados, um de verdade: Físico, Estatístico, Matemático etc.) e know-how (afinal, a teoria na prática é outra.)

Conclusão

Data Mining é o processo de criar um modelo matemático que explique uma realidade observada dentro da empresa.

Quem cria modelos matemáticos são cientistas hard-core, daqueles de jalecos com seis canetas no bolso (a maioria traja roupas sociais, mas é um disfarce!)

Qualquer um pode fazer Data Mining? Claro, todo mundo pode cozinhar. Todo mundo pode usar uma ferramenta. Ser um Adrian, saber usar e saber fazer, porém, já e outra coisa. Requer formação especializada e prática. Usar uma ferramenta não vai te tornar um cozinheiro de mão cheia, mas no máximo um chapeiro de marca.

É isso! ;-)

2 comentários sobre “Data Mining Papo Reto

  1. Fabio, como vai?
    Gostaria de ajuda em 2 aspectos do Saiku, não sei se é sua especialidade, mas lá vai:
    1) Estou querendo passar a usar o Saiku independente do Pentaho BI Server em um projeto específico.
    Porém quero continuar a usar o PSW para modelar o cubo.
    Como faço para publicar um cubo do PSW no Saiku.
    2) Nesse projeto eu quero usar o Saiku embutido em um portal, ou seja, em uma div do html de um portal que já existe, como isso é possível?

    Obrigado.

    1. Gallo, 1) O Saiku é um cliente OLAP e não possui nenhuma dependência forte do BI Server. Ele pode ser usado independentemente e, se não me engano, possui um download especialmente preparado para isso – procure no site deles. O PSW desenha esquemas Mondrian e também não tem nenhuma relação com o BI Server. Ou seja, continue usando-o normalmente. Apenas a publicação será manual. 2) Acredito que sim. O BI Server permite isso (tanto que já vi várias empresas fazendo) e por isso não vejo porque o Saiku (que é uma aplicação web) não vá fazer. Boa sorte! Avise aqui se conseguir!

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s