Sua empresa precisa de um Armazém de Dados? Vocês decidiram adotar Data Discovery, então seu primeiro impulso é esnobar respondendo “não, porque a ferramenta não precisa disso”. (Estou sendo sarcástico. ;-) )

Já faz algum tempo que eu publiquei um post sobre o assunto, no qual eu apresentava um argumento definitivo (na minha opinião) a favor da adoção de Armazém de Dados por qualquer empresa que deseje investir em BI. Não tenho nada acrescentar àquele argumento, mas recentemente cheguei a uma outra interpretação e pensei se não seria bacana dividi-la com vocês.

Eu sou formado em Física. Um dos jargões que aprendemos na faculdade é o verbo “fitar”, um estrangeirismo a partir do verbo inglês to fit. Em português podemos usar ajustar ou encaixar mas, como bons brasileiros, falamos fitar e boas.

Em Física queremos explicar a Naturza e por isso boa parte do nosso trabalho é, a partir da observação de um fenômemo, escolher uma função matemática para descrever esse fenômemo – esculpir um modelo matemático da realidade – e tentar encaixar a função nos dados experimentais. Quando nossa função – nosso modelo – encaixa-se sobre os dados, sabemos que ela serve para explicar a realidade, até onde nossos dados experimentais chegam. Todas as fórmulas da Física que você aprendeu na escola são resultado desse trabalho. Seja a Lei da Gravitação Universal, seja o Princípio da Conservação da Energia ou as Leis de Maxwell, tudo, tudo decorrente do teste de modelos matemáticos contra a realidade.

Tentar encaixar a função nos dados experimentais é, você adivinhou, fitar uma curva. A figura abaixo é um exemplo clássico: uma reta fitando os pontos.

Exemplo de uma reta "fitando" os pontos. Será que não existe nada melhor?
Exemplo de uma reta “fitando” os pontos. Será que não existe nada melhor?

E cá entre nós, ô fitizinho ruim! Me parece que uma Gausiana e uma reta modulando uma quádrica dá mais certo… Não acham? ;-)

BI vs. To Fit

Bom, na minha opinião (sempre!), Inteligência de Negócios é a administração científica de uma empresa, é o processo de levantar hipóteses e testá-las, e usar o resultado para decidir entre uma ação ou outra.

Uma forma diversa de falar “testar hipóteses” é “encaixar uma fórmula a um conjunto de pontos”. Em bom fisiquês, é fitar uma função num experimento. Se você quiser ir mais longe ainda, é a criação de um modelo matemático para explicar a realidade. Mas aí também é pedir demais da TI…

Voltando, pergunta retórica: que função você pode fitar em um experimento que coletou a medida de apenas um ponto?

Um ponto não fita nada. Ou melhor: fita tudo!
Um ponto não fita nada. Ou melhor: fita tudo!

Esse ponto pode ser qualquer coisa, medida instantâneamente. Ou seja, uma medida no momento e mais nada. Como as vendas de hoje, ou o total de pedidos de suporte, o quantos chamados um empregado abriu… Qualquer grão, mas em um único momento no tempo.

Oras, se você mediu seu experimento apenas uma vez – uma única vez – então você tem apenas UM ponto. Quem lembra das aulas de geometria deve se lembrar do lema “uma reta é determinada por dois pontos”. Com um só ponto você não define nada, absolutamente e rigorosamente NADA. Qualquer uma das funções ilustradas pelas linhas coloridas no gráfico acima pode ser ajustadas para passar sobre o ponto medido. Não podemos afirmar nada sobre aquele pontinho.

E este é precisamente o fulcro: como é que vamos testar uma hipótese contra um conjunto de dados que possui uma só medida? Não vamos! Não é possível fitar nada a um conjunto que tenha só um ponto!

Colocada de outra forma, pode-se dizer que é possível fitar um mundo de teorias e hipóteses em um ponto! Não dá para negar nenhuma delas em favor de outra! Qualquer modelo pode explicar aquele ponto!

Agora, se formos adiante e, de tempos em tempos, repetirmos o experimento e coletarmos um novo ponto, teremos uma evolução daquela variável (ou conjunto de) ao longo do tempo. Podemos ver o que aconteceu até agora e tentar enter como aconteceu dessa forma, e talvez o que vai acontecer a seguir.

Agora sim: com mais pontos podemos ver como o sistema se comporta.
Agora sim: com mais pontos podemos ver como o sistema se comporta.

O gráfico acima conta o final da história: para entender o que está acontecendo no meu sistema eu preciso de mais pontos. Só acumulando medidas do sistema ao longo do tempo é que podemos testar e descartar ou confirmar hipóteses.

E um Armazém de Dados é o sub-sistema da disciplina BI que resolve essa demanda por informação temporal. DW é mais que um banco de dados ou um cluster Hadoop: é uma técnica de coleta organização de dados com vistas a análises futuras. Por isso usamos um DW para soluções de BI: para não ter que reinventar a roda e cometer todos os erros de novo, só para sair com um conjunto temporal de dados do outro lado.

Tempo Não É Tudo

Alguém menos informado pode sentir-se tentado a argumentar que não é preciso coletar dados ao longo do tempo se as variáveis de interesse não incluem o tempo. Por exemplo, “que perfil de mutuário tem mais chance de não pagar o empréstimo?” Basta eu montar o perfil dos Mutuários em atraso hoje para descobrir isso.

Bom, esse argumento tem dois grandes furos:

  1. Sem uma análise da relação ao longo do tempo você não pode dizer que variável causou que consequência. Em termos técnicos, a ausência do tempo proíbe quase sempre a determinação do nexo causal;
  2. Sem uma análise ao longo do tempo você não tem como dizer se o valor medido é um outlier ou é o valor normalmente encontrado para aquela variável.

Imagine a consequência de conceder mais empréstimos justamente para o maior caloteiro, só por que, por acaso, conseguiu pagar a dívida em dia no mês passado, enquanto que o melhor pagador se atrasou para chegar ao banco!

Não há escapatória: até mesmo para saber que uma relação é constante no tempo é preciso analisá-la ao longo do tempo.

Conclusão

Resumindo, você precisa armazenar histórico dos dados da sua empresa porque “um ponto não fita nada!”

Explicar para alguém porque um DW é necessário em projetos de BI, usando só uma frase, é uma coisa bem difícil. Primeiro precisamos entender que BI é, resumidamente, a tomada de decisão a partir do teste de hipóteses. Se aceitarmos esse fato (nem todos aceitam), ainda temos que entender que o teste de hipóteses é, na verdade, um trabalho de encaixar uma explicação matemática a uma realidade mensurada.

No fundo, não “precisamos” de DW. Precisamos é armazenar a evolução dos parâmetros da empresa ao longo do tempo. Podemos fazer isso de várias formas: um estagiário anotando valores em um papel de pão, ou uma planilha Excel, ou dumps de bases em um cluster Hadoop. Ocorre que, por acaso, DW é a tecnologia adequada para isso.

Se alguém te disser que você não precisa de DW para “fazer” BI, você vai acreditar?


Ah, em português fitar significa olhar fixamente.

7 comentários sobre “Um Ponto Fita o Mundo

  1. Se algum desavisado ler o seu post vai achar que você está falando um monte de coisas sem nexo. Antes de entrar no SAS eu não tinha menor a idéia de como estatística/matemática aplicada era útil para uma gama de problemas de negócio. Até fazer um projeto de cálculo de Valor em Risco(VaR) para Risco operacional usando simulação de Monte Carlo em um grande Banco brasileiro. E é isso que a indústria tem chamado de Business Analytics. A junção da estatística/matemática aplicada como o BI tradicional( dados contidos ou não em um DW). Não basta olhar para trás, é preciso olhar para frente. Modelagem preditiva é um bom caso que se encaixano seu exemplo citado.

    1. Grande Washington, que honra ter um comentário seu! Vamos lá, por partes:

      – Desavisados: BI é um assunto complexo. Não posso escrever todos os posts como se todo mundo estivesse começando agora. Eu escrevi um monte de coisa introdutória, até demais na minha opinião, e uma hora eu teria que colocar coisas mais sofisticadas. A esses visitantes eu posso apenas recomendar que não desistam – leiam mais, aprendam e voltem um dia, se puderem. Talvez um dia fique claro. (Eu sempre tento escrever o mais claramente possível, e eu reescrevi esse post especificamente umas três vezes até achar que estava passável. Mas ainda não estou feliz com ele.)

      – BA: está mais para BS rs… Sorry. Eu quis dizer que os fornecedores de ferramentas vivem de encontrar novas buzzwords, reempacotar seus produtos nelas e continuar vendendo. Veja o caso de Data Discovery – inventada por uma VP do SAS, aliás – que foi apropriada pela QlikTech e agora todo mundo fala. O próprio termo BA foi inventado também pelo SAS, na década passada (eu estava no GUSAS em que isso começou a ser mostrado – acho que foi 2007.)

      – BI tradicional vs. “novidades”: não existe. BA é outro termo para o que era chamado Data Mining etc. NUNCA alguém fez um modelo em BI para explicar só o passado, era SEMPRE para prever o futuro. Só alguém mal-informado pode sair com essa de “não basta olhar para trás, é preciso olhar para frente” – para quê ele acha que foi feito o modelo, caraca?? E outra, que raio é modelagem preditiva??? Ou seu modelo fita, ou não fita, e se fita, já traz informação do futuro (a menos que você tenha excluído t do seu modelo); e mesmo assim é preciso reavaliar o modelo de tempos em tempos, porque ele sempre descola.

      O SAS é uma faculdade inteira de BI. Eu tomei contato com esse mundo pela primeira vez lá e acabei mal-acostumado. Nunca soube como o mundo aqui fora é tão… “pobre em entendimento”, acho que é esse o termo. Sempre torço o nariz para gente que tasca uma ferramenta de relatório em cima de dados sujos em tempo real e chama de BI. Essas noções propagadas por fornecedores de ferramentas (e não de BI, como o SAS é) mantém os clientes presos em noções simplórias, vagas, cegos para o potencial estupendo de BI. Eu meio que venho numa cruzada tentando levar o que eu aprendi no SAS ao mundo. Basta ver como eu estou sempre falando de solução e de Ciência. ;-) (Eu noto que você também percebe o mesmo desnível entre o potencial e o que o mundo compra. Frustrante, não?)

  2. Fábio, conheço você a muito tempo, e como estatístico fico com orgulho vendo um post destes, explico isso aos gestores todos os dias e como a comunicação matemática é algo que deve ser adquirida, a ideia por fórmulas mágicas que expliquem os dados é solicitada todos os dias, parabéns , excelente, nada aqui foi superficial, valeu!

    1. UAU! Primeiro o Washington e agora o Grimaldo! Meu, eu tô na crista da onda!!! Kkkk

      Pagações à parte, Grimaldo, sua opinião tem um peso imenso para mim. Ter meus pontos de vista de alguma forma validados por você é meu certificado de qualidade de BI. Muito obrigado pelo comentário, ganhei o mês com ele!

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s