De volta ao básico: Pentaho & BI

Esse é um post de autor óbvio, ou seja, eu vou florear até falar algo óbvio. Se você está sem tempo, pule para Conclusão?, quase no final. Se está com tempo de sobra e quer se distrair, bom, pegue um café, recline-se e siga em frente. Você foi avisado. ;-)

Não percebemos, mas repetimos muito mais do que pensamos. Você já deve ter passado por isso: estuda para uma prova, decora uma definição, faz a prova, escreve a resposta correta (que você colou da sua memória) e ganha dez. “Ah”, pensa você, “eu aprendi e agora eu sei”.

Nada mais distante da realidade.

A primeira vez que eu experimentei isso foi no colegial: meu hobby era Química, e eu queria fazer uma reação qualquer – não me lembro. Eu parei e pensei sobre o que meu professor havia explicado algumas aulas antes, sobre estequiometria. De repente, comecei a ter dúvidas. Fui ao livro, reli, li de novo e – bangue! – eu entendi! Claro como o ar ao nosso redor, a estequiometria da reação, mais o peso molar e outros detalhes me diziam quantas gramas eu precisava de cada material para que a reação desse certo, e quanto eu produziria.

Mais tarde aconteceu de novo, várias vezes. Uma vez foi embaraçante: anos depois de acabar a faculdade, eu estava ministrando uma aula de exercícios sobre Eletromagnetismo (eu sou Físico) quando um aluno me fez uma pergunta. Eu repeti a pergunta dele em voz alta (claro, já que eu não sabia a resposta de cabeça e precisava ganhar tempo) e dois semestres de Eletromag (ministrados pelo cara que foi chamado à Cambridge para explicar a revisão que ele fez de Newton – duh) caíram fulminantes na minha cabeça. Eu comecei a rir meio descontroladamente e respondi ao aluno. E minha resposta foi tão clara que eles abriram a boca em um uníssono “ahh!…”.

E esse floreio todo é para dividir com vocês o que acabou de acontecer comigo:

Insights, Tecnologia, Processos e Ferramentas

Quando eu escrevi a primeira versão do curso da 4Linux de BI com Pentaho eu precisei criar alguns slides sobre os princípios por trás da tecnologia. Até meia hora atrás eu estava certo de ter fechado o assunto. O primeiro slide diz isso:

São insights (sacadas) sobre seus negócios, oportunos, precisos, valiosos e práticos, e os processos e tecnologias usados para obtê-los.

Swain Scheps, Business Intelligence for Dummies

O slide seguinte mostra a gravata borboleta do BI:

A gravata borboleta do BI.
A gravata borboleta do BI.

E daí? Não há nenhuma ligação entre esses dois assuntos, nos slides. Quando eu ministro a aula, eu acabo dizendo “e o Pentaho é a ferramenta para obtermos isso”, mas é muito pouco. É mais algo óbvio que eu falava em voz alta do que uma conclusão real, uma ligação intencional entre o conceito de BI do Scheps e os recursos de que a plataforma dispõe.

Depois de reler os mesmos slides pela enésima vez uma campainha soou no meu cérebro:

A Suite Pentaho possui as ferramentas e tecnologias para construir a infraestrutura e os processos que habilitam os analistas de negócio a obter insights oportunos, precisos, valiosos e práticos sobre seus negócios.

Eureka! Como eu não pensara nisso antes?! Tão óbvio, tão simples, tão… tão na cara!

Conclusão?

Eu sempre digo que não existe uma só definição de BI – cada fornecedor, acadêmico ou praticante tem sua definição predileta. A minha é a que o Scheps descreve.

Já a plataforma Pentaho tem uma definição mais clara: um framework para criação de sistemas de suporte a decisão, centrado em processos e orientado a soluções (não sabia?? bom, raramente falamos isso porque é abstrato demais.)

Mas como BI e Pentaho se relacionam? Óbvio:

A Suite Pentaho possui as ferramentas e tecnologias para construir a infraestrutura e os processos que habilitam os analistas de negócio a obter insights oportunos, precisos, valiosos e práticos sobre seus negócios.

Óbvio, não?

Até a próxima!

Beltrano S/A: Modelos de Dados

Dando sequência à abertura do meu projeto de banco de dados para treinamento, Beltrano S/A na Open BI Solutions, acabei de incluir os três modelos de dados da Beltrano S/A:

  • beltrano_mer.architect: tem a base relacional, ou OLTP, que corresponde ao arquivo beltrano_10k_orders_oltp.zip;
  • beltrano_md_logico.architect: é o desenho lógico da base de dados dimensional (DW) e não corresponde a nenhuma base física;
  • beltrano_md_fisico.architect: é o desenho da base de dados dimensional (DW), com todos os detalhes da implementação no banco (é o layout físico do banco). Corresponde ao arquivo beltrano_10k_orders_dw.zip.

Acesse o projeto no SourceForge para baixar esses arquivos: http://bit.ly/GNGzoS. Imagens destes modelos aparecem no post Base de Treinamento Beltrano S/A.

Lembre-se que você pode também pode ter acesso ao repositório do projeto: consulte a seção Code do projeto.

Marco Garcia sobre Big Data

Minha proposta neste blog é adicionar valor, ou seja, sempre trazer artigos que agreguem algo ao leitor e nunca copiar nada. Ocasionalmente eu abro uma exceção e compartilho algo que eu achei muito interessante, e que serve aos leitores.

E aqui está um destes casos: Marco Garcia, da CETAX, escreveu um artigo sobre Big Data. É, artigo. Isso: Big Data. Novidade, né?

Sim!

O Marco está nesta vida de consultoria de BI há alguns anos. Eu o conheci na minha primeira oficina de Pentaho, num Conisli em 2008, e ele já tinha um bom tempo de estrada. O que torna o artigo dele interessante não é só o assunto (da moda, ok), mas a forma como ele o aborda: é uma verdadeira aula prática de como tratar uma questão usando BI, com ferramentas e conhecimento de negócio para tirar sentido das coisas. Primeiro ele examina o contexto usando dados que ele considera relevantes a partir da experiência dele no campo. Daí então ele avalia algumas pergunta típicas que têm ouvido, usando suas observações iniciais para orientar suas conclusões (interessantes, diga-se de passagem.)

Resumindo, é uma novidade pela forma analítica com a qual ele trata o assunto, que serve como uma aula prática sobre BI. Acho que vale muito a pena ler o artigo dele. Boa diversão!

A Pirâmide (Invertida) do Conhecimento dos Negócios

Hoje eu vi num post do BI na Prática, do Diego Elias, algo que há um bom tempo eu não encontrava: uma discussão sobre o relacionamento dados-conhecimento. Ele usa uma pirâmide para mostrar esse relacionamento, com os dados crús na base e conhecimento no topo, sugerindo que para muitos dados crús, temos um volume de conhecimento proporcionalmente menor. Concordo com essa escala de valores: se você sabe mil fatos a respeito de um cliente, você sabe uma coisa sobre ele – fez mil pedidos, hehe. Brincadeirinha: eu queria dizer que com milhares ou milhões de fatos sobre um cliente ou produto, você extrai um volume pequeno de conhecimento, como algumas coisas sobre o hábitos do cliente ou a sazonalidade das vendas de um produto. Muitos e muitos fatos -> algumas informações.

O galho com essa escala é que ela induz a comparação de laranjas com maçãs.

Eu trabalhei um tempo no SAS, há mais de dez anos, e eles usavam uma pirêmide invertida para tratar do assunto. Ela tinha (praticamente) os mesmos labels que a pirâmide do Diego, com uma diferença legal: a escala é de conhecimento, de cima a baixo.

A pirâmide de relacionamento de dados crús ao conhecimento. O conhecimento aumenta conforme trabalhamos os dados crús.
A pirâmide de relacionamento de dados crús ao conhecimento. O conhecimento aumenta conforme trabalhamos os dados crús.

Nesse caso, o conhecimento começa pequeno e termina grande, independentemente da quantidade de registros em bancos de dados. Percebem? Ao invés de quantificarmos o número de registros (milhares ou milhões de pedidos contra uma informação sobre os clientes), quantificamos a informação obtida. Na ponta inferior da pirâmide, na qual temos os dados crús, a informação é pequena. A quantidade de pedidos de um cliente, por exemplo, nos diz apenas que esse cliente fez X pedidos – nada sobre seu perfil ou sobre seu lifetime value.

No nível seguinte já temos alguma informação – podemos ver a sazonalidade da interação do cliente com a empresa, podemos analisar a vazão das linhas de produção ou a lucratividade de nossos produtos ao longo do tempo.

Finalmente, no último nível, aplicamos nosso conhecimento sobre o negócio e geramos a informação tal como ela pode ser aproveitada para as estratégias da empresa. Coisas como “dado o que sabemos, o que vai acontecer?” ou “quem mirar para obter o maior retorno?” e assim por diante. Esse conhecimento sobre o negócio é gerado pelas soluções de Inteligência de Negócio, coisas que vão muito além do relatório ou do dashboard.

Podemos traduzir essa figura por outra, indicando claramente alguns dos exemplos famosos de BI:

Pirâmide completa, com exemplos de soluções de BI que geram conhecimento sobre o negócio.
Pirâmide completa, com exemplos de soluções de BI que geram conhecimento sobre o negócio.

Assim a solução de CRM dá informações sobre o cliente, SCM ajuda a incrementar o valor agregado na cadeia de fornecimento e Riscos mostra quais existem e como eles impactam os cenários de negócios.

E é isso. Kudos ao Diego por retomar uma discussão valiosa, e que por algum tempo esteve escanteada.