O ápice da disciplina de Business Intelligence é criar valor com Data Mining. Mas como isso acontece? Qual é o entregável de um projeto de Data Mining? Como explicar isso a pessoas de outras áreas, leigas em Business Intelligence?

Acho que eu descobri como. Preparado para mais um longo post? Café na mão? Tempo de sobra? (há-há…)

Mineral, Mineração, Mina

Você já viu uma mina surgir?

Primeiro, não há nada: floresta, mata, rios, colinas, montanhas. Nada na acepção humana da coisa, claro.

Vários especialistas chegam e analisam o solo – composição química, camadas, história geológica, ultrassonogragia, sismogramas.

Em certo ponto concluí-se que ali há um potencial de exploração mineral, e uma mineradora assume o negócio: contrata equipe (gestores de todo tipo, operadores de máquinas e sistemas), quota e compra o material necessário para o início das operações.

Aí o vespeiro começa a zumbir: operações de deslocamento e assentamento são montadas, materiais são movidos até lá, pessoas são transportadas e alojadas. Já não é mais o nada da Natureza, a paisagem começou a se modificar e as primeiras marcas da mudança ficam visíveis. Até então, figurativamente, ocorria tudo no subterrâneo, e apenas os patrocinadores e diretores da operação saberiam que estava em curso um negócio. Até agora, ainda, só investimento e pouca coisa concreta.

Conforme o tempo passa, as equipes progridem, abrindo valas, cavando e escorando túneis. Rotas de escoamento futuro são definidas e seguradas, seja por meio de compra de terreno ou manutenções em estradas, ramais rodoviários e hidrovias. As primeiras máquinas de processamento de minério começam a funcionar, e os primeiros carregamentos são extraídos da mina. Talvez anos tenham se passado, e só agora começam a sair os primeiros resultados e sabe-se lá quantos e quais contratempos ou “novidades” foram enfrentados pelo empreendimento. Pode ter havido “revolta” da Natureza, instabilidade de Governo, reviravoltas na economia, problemas trabalhistas, acidentes, limitações financeiras e tecnológicas… Murphy teria orgulho da lista de coisas que podem dar errado em uma aventura destas!

Do 'nada' à mineração.
Do ‘nada’ à mineração.

Muito tempo depois de os peritos dizerem que ali, naquele ponto, era possível extrair minério deste ou daquele tipo, a esta ou aquela taxa, provendo um certo faturamento, a promessa se realiza. O negócio está a pleno vapor, produzindo com eficiência e gerando os dividendos almejados.

Hora de descansar.

Será?

Há! Nem de longe!

É preciso manter tudo funcionando – trocar peças, repor consumíveis, atualizar equipamentos e pessoas, expandir ou contrair em função do mercado. Renegociar dívidas, replanejar investimentos, desembaraçar-se de problemas legais – não tem fim! É uma empresa humana a pleno funcionamento! Só haverá descanso quando o último empregado apagar as luzes, fechar a porta e virar as costas, deixando para a Mãe Natureza cuidar da baderna feita pelos “filhos”. Hehe. Deve ser por isso que chamamos Mãe Natureza e não Cunhado Natureza. Kkkkk….


Outra forma de coletar recursos minerais é por meio de um garimpo. Não vou digredir sobre a diferença entre os dois, mas eu vejo garimpo como uma operação muito mais manual, e de menor escala, do que uma mina, em que se conta com mais automação e se produz volumes maiores. Mas eu não sou versado no assunto e essa aqui é só a minha opinião. ;-)


Garimpagem de Dados

Eu estava pensando (de novo ou ainda, a obsessão não me deixa largar o osso) no problema que me foi colocado no trabalho:

Qual é o produto?Puxa, como assim? O produto é a porcaria do modelo, do algoritmo, oras! >:-/

Estou indo rápido demais, sorry. Vamos do início.

A empresa na qual trabalho precisa criar novos produtos, abrir novos mercados e incrementar o faturamento. Não precisa ter passado 15 anos no mercado de BI para saber que, se você cuida das operações mais importantes de um grande ecossistema, você está sentado em uma montanha de negócios em potencial. Todos aqueles dados, interpretados, contam histórias fantásticas, que valem dinheiro não apenas pelo que informam, mas pelo que ajudam a poupar e melhorar a qualidade das operações.

Vários projetos de Data Mining foram iniciados com vistas a extrair esse valor todo, melhorar a segurança econômica da empresa e ajudar os clientes (ou “O” cliente, como queira) a operar melhor, gastando menos, melhor e entregando mais, com mais qualidade.

Mas eis que batemos num iceberg e a idéia de usar Data Mining começou a fazer água: o que é o produto? O que eu instalo? Que tela o cliente vai ver no final? A imensa maioria dos profissionais de TI e executivos estão acostumados com bancos de dados, telas, relatórios. Quando se fala em BI com esses profissionais, se entrou no ramo nos últimos dez anos, vai pensar em dashboards e Data Discovery; se for da antigas, pode pensar em OLAP e dados consolidados. Raramente se ligam no que, de fato, é BI: Ciência a serviço dos negócios.

É aqui que a história da mineração do começo se liga – e é onde eu tenho falhado na comunicação.

O produto é claro: o resultado de um projeto de Data Mining é um modelo matemático, que vira um algoritmo e é, literalmente, programado nos sistemas. A partir daí o sistema, sozinho, começa a tomar as decisões. Lembram daquela história toda de DSS e BI? Pois é: uma solução de Data Mining faz exatamente isso, toma decisões sozinha. Decide se o cliente merece crédito, se esse ou aquele produto deve ser oferecido, se essa ou aquela declaração deve ser auditada etc. etc. etc.

Na Passarela, O Modelo!

Veja:

'Modelo' matemático da atração gravitacional.
‘Modelo’ matemático da atração gravitacional.

Se você jogar uma pedra para cima, ou um foguete, ou uma vaca, todos eles vão voltar à terra sofrendo uma força F calculada por essa fórmula.

Se você for um piloto de moto, pode calcular que aceleração a é preciso imprimir a seu bólido para fazer o percurso S da pista no tempo t que ele desejado:

'Modelo' matemático da posição de uma moto em uma pista de corrida reta.
‘Modelo’ matemático da posição de uma moto em uma pista de corrida reta.

Se a pista tiver 1 Km e o piloto quiser fazer isso em 10 segundos:

Resolva para encontrar a aceleração que a moto deve ter para fazer 1 Km em 10 segundos.
Resolva para encontrar a aceleração que a moto deve ter para fazer 1 Km em 10 segundos.

Para os preguiçosos: a = 20 m/s2.


Para você ter uma idéia de quanto isso é, a gravidade (a aceleração que te força a ficar no chão) é de ~ 9,8 m/s^2 (ou Pi ao quadrado, como dizia meu eterno orientador, Prof. Carlos Lenz Cesar.)


E, é claro, você pode fazer o contrário: pode usar o modelo para descobrir a aceleração, conhecendo o tamanho da pista e medindo o tempo do início ao fim. Ou medir o tamanho da pista se souber o tempo e a aceleração. Essa é a graça de um modelo matemático: ele correlaciona variáveis e permite que analisemos o que acontece com uma em função da variação de uma outra qualquer. Ah, aproveitando o gancho, vale lembrar que é por isso que precisamos de Data Mining: um ser humano não consegue “enxergar” essas correlações “à olho nu”, só plotando uma coisa em função da outra. Primeiro porque qualquer coisa mais complicada que uma reta já é muito complexa. Veja a curva da moto acelerando:

Gráfico da posição da moto. Consegue usar isso para prever a posição se a aceleração mudar?
Gráfico da posição da moto. Consegue usar isso para prever a posição se a aceleração mudar?

Segundo porque se com duas variáveis (t e S) já não é fácil, imagine com 20 ou 200?

Qual é o Produto?

O produto é claro um ovo! É claro para mim, que vivo, como e respiro BI, e sou um cientista desde criancinha (literalmente, hehe.) Nem de longe é claro para outrem!

O produto de um projeto de Data Mining é como o produto de uma operação de mineração: ele não existe antes, é subterrâneo por um tempão e, definitivamente, acima de tudo, não é uma geladeira, que ligamos na tomada e começa a produzir. E para piorar, o resultado de uma operação de mineração é – adivinhe!! – minério! E daí? Puxa, você já comprou pirita para birita, ou viu alguém pilotando um balde de bauxita?? Não? Sabe por quê? Porque minério, assim como o “produto” de um projeto de Data Mining, é um insumo para outra coisa! Ferro para carros, tinta de ouro para terminais elétricos, lítio para baterias, nitrogênio para refrigeração, carbono para uma infinidade de coisas! É como petróleo: extrair é o começo, pois muito precisa ser feito para tornar disponível o poder daqueles hidrocarbonetos complexos até que um carro possa sair andando, sozinho por aí, usando gasolina. Foi preciso inventar algo (em 1886) que se aproveitasse a [gasolina][gas_bitly] (1870) para ela ter o valor que tem, aliás.

Sei lá, entende?! Padaqui, padali. Padicá, palilá.

Grande Orival! Até hoje eu uso seu famoso “sei lá, entende?”, rio só de lembrar…

Bom, o tal do Patropi, personagem do Orival, era um estudante de comunicação que, no fundo, comunicava porcaria nenhuma. Era todo enrolado e vivia confundindo tudo.

Sempre que eu preciso falar de Data Mining eu me sinto meio Patropi: sei lá, entende? Afirmar “o produto é o modelo”, por mais sintético e completo que possa ser, é pouco para explicar o mundo que existe por trás. Mas quando eu começo a desfiar – tem o sistema de origem, daí a necessidade de negócio, e o problema, e então a análise, a modelagem blá blá blá – eu perco a platéia!

E acho que eu finalmente entendi como comunicar isso.

Contando a história da mineradora.

Veja:

  1. A mina não existe até ser criada, como o projeto de Data Mining: não é como um aparelho, um produto, que se compra e usa. Data Mining não é uma melhoria em algo que existia antes, é um novo projeto!
  2. Um projeto de Data Mining está para um sistema transacional da mesma forma que uma mineradora está para uma fábrica de qualquer coisa: são empreendimentos bem separadas um do outro, com vidas independentes;
  3. Assim como um projeto de Data Mining, uma mineradora não gera um artefato pronto para consumo, mas sim um insumo para outra parte da supply chain, a cadeia de fornecimento: o modelo. Mas não um modelo de tabela ou de banco de dados, e sim um modelo matemático, como o que idealiza a realidade e ajuda a entendê-la;
  4. A mina é o produto do projeto da mineradora; o produto do projeto de Data Mining é o modelo. A exploração da mina produz minério, a exploração do modelo produz decisões;
  5. Clientes da mina pagam pelo minério, e vendem produtos acabados; clientes de Data Mining pagam pelo modelo e geram valor (“vendem”) a partir de decisões automáticas.

Agora Vai! O Produto é…

Como eu já coloquei, o produto de um projeto de Data Mining é um modelo matemático. Esse modelo vai ser usado para gerar valor tomando decisões de negócio automaticamente. Como isso vai ser feito depende muito de qual problema está sendo resolvido.

Talvez esse seja um ponto de debate: o produto é o modelo, ou a aplicação dele? No meu entendimento, aplicar o modelo para gerar valor é o resultado (o produto, portanto) de outro projeto, ou do trecho final do projeto de Data Mining. As técnicas de Garimpagem de Dados foram aplicadas até chegarmos no modelo. O uso dele em produção pode, sim, gerar dados que realimentados no projeto de Data Mining refinam o modelo, mas a integração com o sistema transacional é feita por meio de outras artes. A competência dos profissionais de Mineração de Dados acabou bem antes!


Acho que, a esta altura, você já notou que o falado Data Scientist é ninguém menos que o Analista de Data Mining.


E como um modelo pode ser integrado a um sistema on-line, transacional? De diversas forma, como por exemplo:

  • Vendas: a clássica solução de CRM. Neste caso o modelo é programado em uma solução de campanha de Marketing, e passa a gerar as sugestões de produtos ou ações para cada prospecto ou cliente. Você vê esse sistema em ação sempre que visita uma loja eletrônica e recebe sugestões baseadas no seu perfil;
  • Crédito: um banco opera em cima de diversos sistemas, como cadastro de correntistas, gestão de conta-corrente, gestão de carteiras de produtos e assim por diante. A equipe de Data Mining trabalha com a equipe de sistemas para criar um módulo que aplica o modelo (chamado de credit scoring, pontuação de crédito) aos clientes. Esse módulo pode então ser usado em vários sistemas, como ATM (onde você pode receber um valor de crédito instantâneo), gestão de empréstimos (para avalizar o negar a operação solicitada pelo cliente), vendas, no qual o modelo do CRM usa o resultado do modelo de credit scoring para selecionar clientes a que oferecer empréstimo e assim por diante;
  • Seguro: a equipe atuarial (que constrói o modelo) trabalha com a equipe de marketing para calcular os riscos de cada público para cada produto, e com isso derivar a lista de preços. Neste caso o modelo não vira um programa on-line.

Nos casos acima os modelos gerados pelos projetos de Data Mining foram usados para realimentar os sistemas transacionais da empresa com o conhecimento apreendido dos dados. Exatamente da mesma forma que o minério extraído pela mineração vai ser refinado em um produto final.

Será que ficou mais claro agora? ;-)

Anúncios

2 comentários sobre “Minérios & Dados – Parte 1

  1. É isso ai, Fábio. A cultura da busca do “produto rápido, bonitinho e instalável” está entremeada na mentalidade dos tomadores de decisão, tornando difícil a percepção de qual é o produto de um data mining. Ficou muito boa a tua analogia. Parabém por investir um tempo na escrita.

    1. Obrigado, Gosdal! Você sabe que o seu comentário, para mim, tem muito valor. Espero poder continuar trazendo coisas interessantes. Volte amanhã: tive uma idéia bárbara falando com o Nauber e te garanto um conceito interessante, ou no mínimo uma boa risada! (Gostou do vídeo da vaca, aliás?)

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s