Uma Ferramenta Para Cada Caso

Há algum tempo eu recebi, na rua, este folheto:

WD-40: muito mais que só um aerosol bonitinho.
WD-40: muito mais que só um aerosol bonitinho.

Quem diria, não? Eu cresci usando WD-40 para quase tudo – de matar formigas a efeito sonoro, passando por desengripante e, claro, anti-ferrugem (o nome é uma referência a deslocamento de água, versão 40.) Mas jamais imaginei que o fabricante do WD-40 oferecia uma linha de vários outros produtos. O folheto que mostra a famosa lata aerosol, mostra também latas de diferentes quantidades do mesmo produto e frascos de coisas como “lixa líquida” e
“graxa branca” (o fim das manchas, com o mesmo poder de lubrificação? Ui! :-D )

Mas, é só lubrificação! Como pode uma única empresa, detentora de um único produto famoso, ter uma quantidade de opções??

Respondo-vos eu: e daí? O que é que tem uma coisa a ver com outra? O que é que proibe a empresa que fabrica um produto multi-uso de ter outros produtos?

Existe uma certa tendência, em TI, a pensar nos nossos produtos como coisas abrangentes, que encompassam tudo. O inglês oferece uma expressão precisa para esse sentimento: one size fits all, ou seja, um tamanho serve para todos.


Será que os softwares e hardwares são desenvolvidos nas fornalhas amaldiçoadas de Mordor?

   Three Rings for the Elven-kings under the sky,
   Seven for the Dwarf-lords in their halls of stone,
   Nine for Mortal Men doomed to die,
   One for the Dark Lord on his dark throne.
   One Ring to rule them all. One Ring to find them,
   One Ring to bring them all and in the darkness bind them.


Mas estou digredindo.

Quem acompanha meu blog sabe que eu tenho uma fixação por propagandas de produtos que prometem fazer tudo com uma só ferramenta. Não tenho problemas com empresas que se prestam a servir tudo, ou one stop shops, mas com empresas que oferecem um único produto e afirmam que ele pode fazer tudo, que ele dispensa qualquer outro complemento.

Esse tipo de mensagem prejudica o cliente, o consumidor, por um motivo muito simples: todo mundo quer ouvir que seu problema tem uma solução fácil.

Mas em TI, e principalmente em BI, não existem soluções fáceis ou óbvias ou tão simples que um mané qualquer pode construir. Se fosse verdade, não teríamos tanta evidência anedótica de projetos que deram errado, de times que ouviram o canto da sereia “one-size” e depois precisaram recolher os cacos e recomeçar.

Pensem em lubrificação: uma coisa simples, só fazer escorregar mais facilmente. Agora pensem em quantas opções de lubrificantes existem. O que gera essa variedade? O uso, os materiais envolvidos e até a dinâmica dos corpos em atrito! Ou você nunca escorregou em um piso molhado que, pisado da forma certa, oferece firmeza?

E essa variedades de opções se estende por uma infinidade de assuntos – basta pensar em alguma coisa e você vai ver que não existe essa coisa de “one ring”, para nada.

E porque continuamos buscando isso em BI? Porque ainda queremos que isso seja verdade?

Não sei, mas o fato é que não é.

Conclusão

Como dito, eu já comentei e dei aqui vários exemplos de como forçar uma ferramenta em todas as funções pode ser um grande erro. Bom, eu tive oportunidade de conhecer melhor dois produtos semana passada, Alteryx e Tableau. Adivinhem a mensagem central?


Você só precisa desses dois produtos, mais nada.


Ai, ai, esse ramo não tem jeito, mesmo. Pelo visto, sempre que um fornecedor de BI puder, ele vai tentar reduzir tudo ao mínimo. Mas o cenário talvez esteja melhorando, afinal ouvi dizer pela primeira vez (fora o SAS, que sempre ofereceu um carrilhão de opções) que precisamos de dois produtos! Um para ETL/Analytics, outro para Visual Analytics.

Bom, de qualquer maneira, o fato é que eu ainda preciso estudar mais esses produtos para poder negar a afirmação do fornecedor. Por enquanto, pelo que eu vi, de fato cobrem muita coisa e não é impossível que sejam mesmo o único produto necessário…

… se você ignorar sistema operacional, bancos de dados, diagramação, modelagem matemática etc. etc. etc.

Ai, ai. ;-)


O ano está chegando ao fim. Os próximos posts falarão sobre alguns livros interessantes que li este ano e fecharão a série de soluções clássicas, apresentando o Cálculo Atuarial. Até lá!

As Soluções Clássicas – Credit Scoring

Credit Scoring é o processo de atribuir uma pontuação – score – ao solicitante de alguma operação de crédito, como um empréstimo ou um parcelamento, e assim oferecer um número, um fato concreto, sobre essa solicitação para apoiar a decisão de concedê-la ou recusá-la. (Note que Credit Scoring é o processo, e Credit Score é o resultado.)

Uma solução de CS é resultado de um projeto de Data Mining, conforme eu expliquei no post inicial desta série, As Soluções Clássicas.

A idéia é simples, mas o processo em si é cheio de nuances, a começar por “score sobre o quê”, indo até o “score sobre quem”, combinando-os em “score para quem fazer o quê?”. Como a proposta é dar a vocês o sentimento de BI aplicado, uma visão geral sobre a solução de negócio, mais que de tecnologia ou Matemática, vou falar em termos genéricos e leigos. E assim como o post CRM, tudo aqui foi tirado em grande proporção de uma Solução SAS para CS e do livro Data Mining Techniques.

Introdução

Vamos do início, e no caso canônico: bancos emprestam dinheiro a clientes, que pagam de volta (ou não.) O processo em si não é muito complicado:

Ciclo de vida de um novo pedido de empréstimo.
Ciclo de vida de um novo pedido de empréstimo.

Um cliente (um prospecto na verdade, pois cliente ele será se o pedido for aceito) entra com o pedido de crédito, o banco avalia e decide se concede ou não.

Se o banco recusar o empréstimo a coisa acaba ali mesmo. Se conceder, o prospecto vira cliente, recebe o dinheiro e começa a pagar as parcelas. Daí ele entra em outro ciclo de vida:

Ciclo de vida de um empréstimo em andamento.
Ciclo de vida de um empréstimo em andamento.

Se durate a vigência do empréstimo (o contrato) ele deixar de pagar uma parcela, ele entra em recuperação. Pode ser apenas um pagamento atrasado alguns dias, um pagamento que ele “esqueceu” (deixou de pagar uma parcela, mas continua pagando as outras), ou passou a pagar com atraso, e assim por diante. Na situação limite, quando o cliente acumula sucessivos atrasos e a recuperação empaca, o cliente é encerrado, e a recuperação passa para a esfera jurídica, na qual o banco vai tentar reaver qualquer dinheiro possível e minimizar as perdas.

Se o processo de recuperação dá certo o cliente volta a efetuar os pagamentos e o andamento do processo retorna ao normal, seguindo até seu encerramento. Depois disso o ciclo pode recomeçar, com o agora ex-cliente pedindo um novo empréstimo.

Trabalho de Formiguinha

Imagine-se na posição do gerente do banco que recebe um pedido de crédito. Via de regra, até certo valor, todo gerente possui uma autonomia para decidir sobre a concessão desse pedido. Acima desse ponto o processo “sobe” para outras instâncias do banco, melhor capacitadas a avaliar os riscos do pedido.

E como um gerente, um profissional técnico do ramo, decide sobre esse pedido? Ele precisa descobrir se esse prospecto tem algum histórico de bom pagador ou caloteiro, por exemplo. E mesmo não tendo um bom histórico, ou apesar de tê-lo, o pedido faz sentido? O destino prometido ao dinheiro é um negócio saudável? Ou parece algum “esquema”, alguma coisa suspeita ou boa demais para ser verdade?

Não é uma tarefa simples. Meu pai foi gerente de banco antes, durante e depois da explosão da informatização bancária, e eu testemunhei em primeira mão (ou quase, hehe) as mudanças causadas nessa transição. Ele sempre foi muito reservado sobre o trabalho dele, mas alguma coisa sempre escapava. Como eu sou muito curioso e enxerido, acabei entendendo como ele fazia essas avaliações: ele visitava o cliente, aprendia sobre o negócio dele, sobre o destino do empréstimo e depois fazia a lição de casa, que consistia em levantar o histórico do cliente no banco, se existisse, depois no SERASA (ou coisa que o valhesse durante as décadas 70 a 90) e finalmente conversava com as “fontes” dele, profissionais que ele conhecia neste ou naquele segmento e que poderiam saber de algo a mais, saber como o mercado estava reagindo etc. Isso tudo além de ler Veja, Isto É, Exame, Manchete, Estadão e Gazeta Mercantil (ele já estava aposentado quando saiu o Valor.)

Só que, no final, não raras vezes ele tinha que apostar na própria intuição. Em certos casos ele dizia que “tinha uma sensação estranha” ou que “algo estava incomodando-o”, que “tudo estava certo, e isso era estranho” e assim por diante. Eu me lembro claramente de um dia ele chegar em casa e falar com minha mãe: “sabe o sujeito que pediu empréstimo e eu recusei? Eu não disse que era estranho? Acabaram de descobrir que ele deu estouro na praça”. Estouro na praça é o jargão bancário para estelionato: o cara tinha apresentado um lindo projeto de abatedouro e levantou crédito em vários bancos, crédito que ele embolsou e sumiu. Meu pai negara, baseado no “faro”, ele dizia, e foi o que salvou o pescoço dele.

Como vocês podem imaginar, não era um trabalho rápido. Uma parte dos casos eram novas linhas de créditos para clientes estabelecidos, e esses saiam rapidamente, mas os novos negócios demoravam algum tempo.

Com o advento de computadores e armazenamento cada vez mais poderosos e baratos, e as novas possibilidades abertas pelo acúmulo cada vez maior de dados (soa familiar? era década de 70, indo para 80, e ainda hoje temos a mesma conversa!!), aos poucos a importância do trabalho de analista feito por profissionais como meu pai, chamados eufemisticamente de linha de frente, foi diminuindo. O banco foi se tornando capaz de emitir análises cada vez mais rápidas e mais precisas sobre cada pedido, e paulatinamente a autonomia dele, o tamanho do empréstimo que ele podia decidir sem recorrer à central do banco, dimiuia. Cada vez mais pedidos, de valores cada vez menores, eram remetidos eletronicamente para a central de processamento de dados do banco, e uma análise mandada de volta em cada vez menos tempo.


Eu não me lembro exatamente de qual sistema era, mas dos meus quinze anos eu me lembro de ele usando uma coisa parecida com o sistema 3790 da IBM:

Sistema IBM 3790 de computação distribuída: pioneirismo vintage!
Sistema IBM 3790 de computação distribuída: pioneirismo vintage!

Me lembro do meu espanto ao ver meu pai, um “velho” de mais de cinquenta anos, entusiasta da computação, pressionando pela a informatização da agência inteira. Mas velhos não resistem à tecnologia??


Essa tendência seguiu firme e forte, até o momento em que todo caixa eletrônico (ATM) passou a oferecer crédito na hora.

Na Passarela, o Modelo!

Mas como, afinal, a informatização conseguiu substituir o pé na rua, a investigação em pessoa e a intuição?

Resposta: não conseguiu. O processo de tomada de decisão manual, por assim dizer, depende de se obter certas informações. O processo de decisão automatizado, que é uma aplicação de Data Mining, não pode contar com o mesmo tipo de conhecimento consumido no processo manual e por isso precisa apelar para outros recursos, outros caminhos.

Assim, ao invés de avaliar um prospecto pelo que sabemos sobre ele, o processo automatizado atribui uma nota – um score – ao prospecto a partir do que se sabe sobre os clientes que se parecem com ele.

Funciona assim: um especialista no assunto analisa uma massa de dados de clientes, isto é, de quem já contratou crédito. Essa massa possui algumas característias como, por exemplo, ser apenas uma parcela da base de dados, ao invés de ser a base inteira. Por outro lado, ela contém uma certa proporção dos vários tipos de clientes e situações, refletindo a distribuição da base inteira. E são dados limpos, que foram tratados para remover as incertezas e dubiedades. E por aí vai.

Essa amostra de dados é então dividida em algumas partes, como a base de treinamento e de avaliação. Sobre uma destas partes o especialista, que é um Analista de Data Mining, vai rodar alguns testes, e depois de um pouco de trabalho vai chegar a algumas expressões matemáticas que dizem qual é a chance de um determinado cliente pagar ou não pagar o empréstimo. Essas expressões são o que se chama modelo matemático, e leva esse nome por que ele mostra como a realidade se comporta, tal qual uma maquete representa um prédio.

E como confiar que este modelo de fato representa a realidade? Aplicando-se este modelo contra as outras partes da amostra inicial e medindo o quanto ele está certo ou errado.

Gráfico de avaliação e comparação de modelos. Quem "ajusta" melhor?
Gráfico de avaliação e comparação de modelos. Quem “ajusta” melhor?

Os termos técnicos não são “certo” e “errado”, mas sim coisas como sensibilidade, discriminação, lift, ganho etc. Eu estou simplificando esse jargão em prol da comunicação.


O processo volta ao início e é repetido algumas vezes, até que o modelo ganhe um grau de certeza que atenda a demanda da empresa, isto é, até que ele entegue as respostas buscadas, dentro de uma faixa de certezas. Neste momento o modelo (matemático, lembre-se! Não é modelo de bancos de dados!) está pronto e pode ser usado para estimar o risco de conceder crédito a um prospecto.

Eis um fluxo de Data Mining: note o particionamento dos dados e a avaliação dos modelos.
Eis um fluxo de Data Mining: note o particionamento dos dados e a avaliação dos modelos.

Só Isso?

Até agora falamos como um modelo matemático pode ser usado para estimar o risco de um novo negócio. Vimos no início, porém, que o ciclo de vida do cliente vai além da venda do crédito: ele passa por todo o período em que o empréstimo é quitado. Nesse período muita coisa pode acontecer, como perdermos algum dinheiro com caloteiros contumazes, mas recuperar outro tanto de clientes que passaram por dificuldades financeiras.

Grosso modo, a solução de Credit Scoring cria modelos de riscos que dão respostas às seguintes perguntas:

  • Contratação de crédito: qual é o risco de um determinado solicitante se mostrar um mau (ou bom) pagador?
  • Falha de pagamentos: que cliente possui o maior risco de deixar de pagar o empréstimo, em parte ou totalmente?
  • Recuperação: quanto de recuperação de valores em atraso podemos esperar da base de clientes?

Ou seja, podemos ter modelos que tratam o cliente desde antes de ele receber o crédito, até depois de ele quitá-lo (avaliando quando sugerir um novo empréstimo), passando por avaliações de risco de atrasos, perdas e recuperações destas perdas!

Felicidade É…

… um crediário nas Casas Bahia, já diziam os Mamonas Assasinas!

Se você acompanhou o raciocínio até aqui deve estar achando Credit Scoring uma solução muito específica, voltada para um segmento relativamente pequeno – empréstimos por bancos. Na verdade, essa solução aplica-se em um sem-número de situações e indústrias. Quer ver?

Crediário

Toda loja que vende a crédito pode usar essa solução. As Casas Bahia são um exemplo para lá de manjado, tanto que dizem que o negócio deles é crédito pessoal, que por acaso é feito dentro de uma loja onde podemos gastar esse empréstimo.

Limites

Já se perguntou como é que sua operadora de cartão de crédito estipula seus limites? Ou porque é que seu limite aumentou de repente? E cheque especial? De onde o banco tira coragem para te deixar gastar a descoberto??

Todos esses exemplos, caso você não tenha notado, são empréstimos temporários. A solução de Credit Scoring dá uma forma de calcular que valores podem ser deixados à disposição do cliente, pré-aprovado, para uso rápido – para fluxo de caixa.

Hipotecas

Essa é ótima: pedimos um empréstimo, e em contra-partida oferecemos um imóvel como lastro para o empréstimo. Esse tipo de operação, chamada de hipoteca ou hipotecagem, tende a oferecer juros menores porque representam um risco menor. Mas quão menores ainda serão vantagem ou seguro para a instituição que oferece o crédito?

Seguros & Prêmios

Não. Talvez você até atenha se perguntado se CS não seria uma boa opção para estipular prêmios de seguros ou custos destes mesmos seguros. Bom, apesar de esses números poderem ser calculados com uma solução de Data Mining, não é a solução de Credit Scoring que faz isso, mas sim a de Cálculo Atuarial – assunto do próximo post da série!

Conclusão

Voltando um pouco à história do meu pai e do banco, ao contrário do que o senso comum pode nos levar a pensar, meu pai não se revoltou com essa “perda de poder”. Longe disso! Ele abraçou essa idéia com fervor. Pudera, a lógica dele ela cristalina: esse trabalho de formiguinha roubava tempo que ele poderia usar para ir atrás de quem precisava de dinheiro, mas não ainda não tinha ido até o banco. Mais do que isso: se ele trouxesse um novo negócio, ele mesmo precisaria avaliar o cliente, precisando ficar sentado mais um tempo até processar os novos prospectos, e só então poderia sair para buscar outros… e a vida virava um arrastar sem fim, um sai-cria-negócio-pára-recomeça. Com a automação do processo de decisão de concessão de crédito, ele ficaria livre para se dedicar continuamente a abrir novas frentes de negócios, sendo pró-ativo, deixando o maçante trabalho de autorizar ou não para um time mais eficiente e mais preparado que ele. Ele gostava era de por o pé na rua para vender! :-)

De novo, isso te soa familiar? “Automatizar processos repetitivos e liberar os trabalhadores para funções mais nobres.” Essa é a eterna promessa da automatização, feita por TI!

A concessão de crédito é um processo que pode ser resolvido tanto analisando-se caso a caso, quanto em lote. A solução de Credit Scoring é uma automação do processo de decisão, em que usamos o que sabemos sobre o pretendente, seu histórico de comportamento e o contexto, para qualificá-lo desta ou daquela maneira e assim tornar a análise um processo objetivo, automatizável até. E tanto isso é possível que temos aí os caixas-automáticos oferencendo crédito em qualquer esquina do país, vinte e quatro horas por dia, 365 dias por ano.

All hail Business Intelligence! All power to the knowledge!E o pessoal se matando para comprar ferramentas de dashboards… :-)


No próximo post teremos a última solução integrante da SAStíssima trindade de BI, outro assunto que também é praticamente sinônimo de BI e Data Mining: a Solução Atuarial, vulgarmente conhecida como “Seguros”.


 

Diferença Entre SAS e MicroStrategy

Sempre que alguém chega ao blog por meio de uma busca na web, o WordPress.com registra o termo que resultou nesta busca. Ontem, por exemplo, estava lá o seguinte:

Top Searches

dw dimensão data semana exemplo,
livro como criar datawarehouse,
diferença entre sas e microstrategy,
controle de chaves planilha

Ora, pensei eu, diferença entre o SAS e o MicroStrategy? Por quê não? Semana que vem eu trarei a última parte da série Logs do PDI, com a consulta que dá a árvore de jobs e transformações. Hoje eu vou comentar sobre sobre como se comparam essas ferramentas.

Ferramentas & BI

Quem acompanha o blog sabe que eu tenho uma queda, um tombaço, por conceitos. Sou Físico, adoro teoria, não posso fazer nada.

Mas,por mais que eu reforce a importância dos conceitos para resolver um problema da melhor forma possível, no final do dia são as ferramentas que materializam os resultados. Tão importante quanto conhecer a teoria é saber quais são as ferramentas, como elas funcionam e como se relacionam aos conceitos.

O post de hoje vai começar explicando o básico da diferença entre MicroStrategy e SAS, e depois vai classificar as ferramentas mais famosas em categorias mais ou menos óbvias. A intenção não é chover no molhado, mas ser um recurso simples e rápido a quem tem pressa de entender essas diferenças.

A minha definição de BI é “a aplicação do método científico aos dados de uma empresa”. Para que isso aconteça precisamos preparar os dados e depois explorá-los. Ou seja, grosso modo, há duas grandes atividades em BI:

  • Juntar dados;
  • Analisar dados.

Portanto, essas são as duas grandes categorias de divisão de ferramentas em BI.


O MicroStrategy pertence exclusivamente à segunda categoria, análise de dados. O SAS pertence a ambas categorias: ele serve para acumular e analisar os dados.


O MicroStrategy

Se você examinar a página da plataforma MicroStrategy, vai notar que, logo no começo, há os seguintes dizeres:

With out-of-the-box gateways and native drivers, MicroStrategy makes it easy to seamlessly connect to any enterprise resource, including databases, mobile device management (MDM) systems, enterprise directories, cloud applications, physical access control systems, and more.

Traduzindo livremente:

Com conectores prontos e drivers nativos, o MicroStrategy facilmente conecta-se a qualquer recurso corporativo, incluindo bancos de dados, sistemas de gerenciamento de dispositivos móveis (MDM), diretórios corporativos, aplicações em nuvem, sistemas de controle de acesso físico e mais.

Se você seguir o link para saber mais, vai ver a mesma mensagem, apenas com outras palavras.

Apesar de eles até comentarem sobre dados e tal, no fundo o MicroStrategy não mexe com os dados de origem. O que o MicroStrategy faz, e faz muito bem por sinal, é servir um monte de tipos de visualização de dados, em um monte de meios diferentes, a partir de um monte de fontes de dados. Ele faz praticamente tudo que existe para ser feito em termos de visualização, exploração de dados e distribuição de resultados. Mas o MicroStrategy não integra dados e não faz Data Mining.

O SAS

O SAS é uma suite composta pelo Sistema SAS e diversos produtos periféricos. O SAS entrega tudo que o MicroStrategy entrega, com um pouco menos de “ooohhhh”, claro, e ainda faz integração de dados e Data Mining.

SAS significa Statistical Analysis System, e foi desenvolvido para atender uma necessidade do governo dos EUA. Seguindo a fantástica tradição norte-americana de unir Ciências e Negócios, esse software acadêmico cresceu e virou um produto de sucesso. Por mais de quarenta anos ele tem evoluído e, hoje, SAS é “A” empresa de BI, e a suite SAS é “O” software de BI, contra o qual o mercado inteiro é medido. (Não que o mercado saiba disso, claro. ;-) Não adianta – eu sou fã do SAS.)

O SAS possui um produto para ETL, um para limpeza de dados, um para Data Mining, um para OLAP, um cliente OLAP, ferramentas de relatório, de painéis (afff…), um para etc. etc. etc….

A página de produtos, para você ter uma idéia, lista as coisas por ordem alfabética. Para não soterrar o interessado em specs sheets sem fim, eles também oferecem uma página de soluções, organizada por indústrias – 23 atualmente.

O SAS é muito mais que só uma ferramenta disso ou daquilo. Ele é um software capacitado a implementar e executar a estratégia de BI de empresas de qualquer porte ou setor. Essa é sua força e sua fraqueza – já já veremos porque.

Laranjas e Maçãs

Trocando em miúdos, SAS e MicroStrategy não se comparam diretamente. Assim como SAS e Informatica, SAS e SPSS. Porém podemos comparar:

Não é fácil comparar os produtos do SAS com os outros. Eu já não mexo no SAS há uma década, e não posso afirmar nada hoje. Porém, na comparação direta, na cara do cliente, o SAS tinha uma dificuldade grande em lidar com a concorrência porque cada fornecedor estava em um nicho, mas o SAS estava em todos. A idéia do SAS é vender soluções, que levam o cliente a ganhar dinheiro. Quando o cliente não quer saber de solução, mas precisa apenas comprar uma ferramenta de visualização de dados, o SAS perde parte do seu apelo de plataforma integrada e tal. Perdi várias vendas para o MicroStrategy, simplesmente porque ele era mais fácil de usar e mais bonito. Mas também nunca perdemos uma venda de solução, na qual resolvíamos um problema do cliente – coisas “banais” como estancar a perda de um milhão de clientes por mês, ou otimizar mala-direta de milhões de dólares por campanha. ;-) Nada de relatório ou painel.

Tudo Vs. Tudo

De maneira geral, as ferramentas do mercado atual classificam-se nestas categorias:

  • Integração de Dados:
    • SAS Data Management;
    • Informatica PowerCenter;
    • Pentaho Data Integration;
    • Microsoft Data Integration Services
    • Clover ETL
    • Talend
  • Data Stores
    • Oracle, MS SQL Server, Postgres, MySQL
    • Teradata, Vertica, MoneDB
    • MS SQL Server Analysis Services
    • Hadoop
  • Data Mining
    • SAS Enterprise Miner
    • SPSS
    • RapidMiner
    • R, Weka
  • Visualização
    • SAS Visual Studio, SAS/GRAPH, SAS/OR, SAS/etc…
    • MicroStrategy
    • BO (agora da SAP)
    • Pentaho OLAP, Relatório, Relatório AdHoc e painéis
    • QlikView
    • Tableau

Há um mundaréu de produtos e eu, com certeza, deixei vários de fora. A idéia, como eu disse no início, é só dar uma base para consulta rápida, que te mostre ao menos o caminho, a direção na qual seguir para estudar mais.


Repare que o SAS e o Pentaho aparecem em todas as categorias (Weka é parte do Pentaho), exceto Data Store. Isso é uma feliz coincidência: o Pentaho é, no fundo, um SAS open source.


Concluindo…

…uma comparação minuciosas entre quaisquer produtos do mercado de BI tende a ser muito complicada. Vários produtos possuem similaridades que justifiquem colocá-los como concorrentes, mas nem sempre dá para fazer uma comparação 1 para 1. Na verdade, raramente dá. Se você precisa se decidir entre um produto e outro, tente pelo menos levar em consideração a estratégia da empresa e o futuro que vocês planejam.

Até a próxima. ;-)

Lavando Louça (ou Paz, Afinal III)

Todo mundo que lava louça em casa sabe que essa é uma atividade mecânica, meio que automática depois de um tempo, e também sabe que nesta situação a mente fica ociosa e acabamos pensando em qualquer coisa.

Bom, então, eu estava lavando louça esses dias e me lembrei de uma conversa que eu tive no LinkedIn, e só então me dei conta da importância do que foi discutido. O restante da discussão não vem ao caso, mas eu posso contar o santo: o autor, Diego Elias, propunha uma contextualização de BigData em BI. No meio da conversa eu soltei:

No meio da bagunça (entendeu o lance das faixas pretas?) eu soltei essa.
No meio da bagunça (entendeu o lance das faixas pretas?) eu soltei essa.

Try to See the Truth:

There Is No Spoon.

Eu simplesmente não aguento mais fazer posts sobre definições de coisas fundamentais, e o mundo está até as tampas de literatura especializada, feita por gente muito melhor do que eu, de modo que tudo que eu possa falar é completamente redundante. Mesmo assim…

Mesmo assim, nas minhas turmas de BI eu sempre faço questão de insistir em um ponto:

Try to see the truth: There is no BI.
Try to see the truth: There is no BI.

Neste slide eu sempre mango do Matrix: tente ver a verdade, não existe BI. O slide diz tudo, mas não custa reforçar: BI é uma disciplina, da qual software-houses e fabricantes de hardware se apoderaram, ao ponto de existir uma carreira de Administração de Empresas, mas não uma de Inteligência de Negócios! BI está virando uma piada, como aquela sobre hardware e software(*1), “BI é quem toma a decisão errada, Administração é quem enfia o pé na jaca”.

E, se eu não me engano, até comentei essa idéia com um grande amigo da USP, durante o Pentaho Day de 2014.

Simplesmente

Taylor, em seu seminal livro, preconiza que a gestão empresarial deveria ser uma ciência, com movimentos friamente calculados e ponderados de antemão. É uma idéia tão forte e com tanto apelo que ninguém conseguiu, até hoje, deslocá-la. Todos reconhecem que Administração não uma ciência “no duro”, principalmente porque não é possível criar empresas em placas de Petri, mas mesmo assim tentamos nos cercar de fatos testados para conduzir uma empresa. Por isso fazemos pesquisas de opinião no mercado, por isso entrevistamos e testamos nossos candidatos antes de contratá-los, por isso medimos e tentamos controlar a qualidade dos produtos e processos.

Porque simplesmente faz sentido.

Simplesmente faz sentido relacionar causa (ferramentas sujas, falta de habilidade, material de baixa qualidade) com o efeito (produtos feios, mal-feitos, ordinários.)

Simplesmente faz sentido examinar os números da empresa para descobrir que história eles contam.

Paz, Afinal III: O que é Inteligência de Negócios

Simplesmente:

Inteligência de Negócios é a disciplina de busca da compreensão dos negócios de uma organização mediante a aplicação do Método Científico.

Eu entrei no SAS em abril de 2000. Fiz essa pergunta a um sem-número de pessoas, começando pela Country Manager do SAS em 2000 (é tomar decisões com ferramentas – grosso modo, já não me lembro bem o que ela falou), passando por todos os meus colegas de SAS, depois por um VP de vendas do SAS, daí para pessoas em indústrias, bancos, varejo, o pessoal da MicroStrategy, várias pessoas no meu emprego, fóruns etc. Sem contar os livros que eu li (li tanto que um dia botei tudo para fora e escrevi meu próprio) e mesmo assim eu não tinha nenhuma resposta. Nenhuma boa o bastante, simples o bastante, nenhuma que eu pudesse ler quando não soubesse o que fazer, que caminho seguir. Eu costumava usar a do livro do Swain Scheps, BI for Dummies, e ela fazia isso por mim.

Eu procuro essa definição há quase 15 anos. Obviamente eu não perguntei à pessoa certa, e deixei de ler exatamente o livro que tinha essa definição. Infelizmente eu continuo não sabendo qual é – quem sabe um dia eu encontro um dos dois. ;-)

Até a próxima.


 

(*1) Odeio notas-de-rodapé, mas não queria quebrar o raciocínio lá em cima: perguntado sobre a diferença entre hardware e software, o cara responde que “hardware é o que você chuta, software é o que você xinga”. :-) É engraçado porque é verdade…

A Pirâmide (Invertida) do Conhecimento dos Negócios

Hoje eu vi num post do BI na Prática, do Diego Elias, algo que há um bom tempo eu não encontrava: uma discussão sobre o relacionamento dados-conhecimento. Ele usa uma pirâmide para mostrar esse relacionamento, com os dados crús na base e conhecimento no topo, sugerindo que para muitos dados crús, temos um volume de conhecimento proporcionalmente menor. Concordo com essa escala de valores: se você sabe mil fatos a respeito de um cliente, você sabe uma coisa sobre ele – fez mil pedidos, hehe. Brincadeirinha: eu queria dizer que com milhares ou milhões de fatos sobre um cliente ou produto, você extrai um volume pequeno de conhecimento, como algumas coisas sobre o hábitos do cliente ou a sazonalidade das vendas de um produto. Muitos e muitos fatos -> algumas informações.

O galho com essa escala é que ela induz a comparação de laranjas com maçãs.

Eu trabalhei um tempo no SAS, há mais de dez anos, e eles usavam uma pirêmide invertida para tratar do assunto. Ela tinha (praticamente) os mesmos labels que a pirâmide do Diego, com uma diferença legal: a escala é de conhecimento, de cima a baixo.

A pirâmide de relacionamento de dados crús ao conhecimento. O conhecimento aumenta conforme trabalhamos os dados crús.
A pirâmide de relacionamento de dados crús ao conhecimento. O conhecimento aumenta conforme trabalhamos os dados crús.

Nesse caso, o conhecimento começa pequeno e termina grande, independentemente da quantidade de registros em bancos de dados. Percebem? Ao invés de quantificarmos o número de registros (milhares ou milhões de pedidos contra uma informação sobre os clientes), quantificamos a informação obtida. Na ponta inferior da pirâmide, na qual temos os dados crús, a informação é pequena. A quantidade de pedidos de um cliente, por exemplo, nos diz apenas que esse cliente fez X pedidos – nada sobre seu perfil ou sobre seu lifetime value.

No nível seguinte já temos alguma informação – podemos ver a sazonalidade da interação do cliente com a empresa, podemos analisar a vazão das linhas de produção ou a lucratividade de nossos produtos ao longo do tempo.

Finalmente, no último nível, aplicamos nosso conhecimento sobre o negócio e geramos a informação tal como ela pode ser aproveitada para as estratégias da empresa. Coisas como “dado o que sabemos, o que vai acontecer?” ou “quem mirar para obter o maior retorno?” e assim por diante. Esse conhecimento sobre o negócio é gerado pelas soluções de Inteligência de Negócio, coisas que vão muito além do relatório ou do dashboard.

Podemos traduzir essa figura por outra, indicando claramente alguns dos exemplos famosos de BI:

Pirâmide completa, com exemplos de soluções de BI que geram conhecimento sobre o negócio.
Pirâmide completa, com exemplos de soluções de BI que geram conhecimento sobre o negócio.

Assim a solução de CRM dá informações sobre o cliente, SCM ajuda a incrementar o valor agregado na cadeia de fornecimento e Riscos mostra quais existem e como eles impactam os cenários de negócios.

E é isso. Kudos ao Diego por retomar uma discussão valiosa, e que por algum tempo esteve escanteada.