Em Business Analytics, analítica e o data science (ou ciência dos dados) representam um campo interdisciplinar de processos e sistemas, capazes de extrair insights e conhecimento de diferentes formatos de dados.
Essa extração de insights dos dados é cada vez mais importante para complementar a analítica descritiva, representada pelos projetos tradicionais de Business Intelligence.
Na área de Business Analytics , através dos insights escondidos nos dados, conseguimos prever acontecimentos e consequentemente, agir atempadamente.
Que padrões estão escondidos nos dados da minha organização?
Como se agrupam os meus clientes?
Que tipo de perfis têm os meus clientes?
Como posso classificar novos dados e exemplos em função dos já classificados no passado?
Qual o nível de risco de um novo cliente?
O que posso fazer para potenciar a utilização dos meus dados?
Que conhecimento consigo extrair dos meus dados?
Soluções Business Analytics
Capacidade de identificar padrões escondidos nos dados.
Tipicamente agrupando os dados ou através de associações, conseguimos descobrir comportamentos nos dados que nos permitem caracterizá-los.
Algumas abordagens típicas são:
- Clustering
- Association rules
- Visualization
- Text mining
Predictive Analytics abrange um conjunto variado de técnicas estatísticas de modelação preditiva, machine learning e data mining, que analisam factos históricos e em função dos mesmos conseguem prever situações futuras.
Com recurso à modelação preditiva podemos aprender em função de critérios de decisão, permitindo-nos consequentemente classificar novos exemplos que até então eram desconhecidos.
No campo da modelação preditiva temos essencialmente dois tipos de abordagem de previsão:
– se aquilo que pretendermos prever for caracterizado de forma contínua temos um problema de Estimation (regressão)
– se aquilo que pretendermos prever for categórico, temos um problema de Classification (classificação).
A forma de funcionamento passa por fornecermos ao modelo um conjunto de dados de exemplo, previamente classificados com as suas respostas, de forma a conseguirmos criar um classificador.
Uma vez desenvolvida essa componente, podemos dizer que o nosso modelo está “treinado”.
Consequentemente podemos dar-lhe como input, novos exemplos não classificados, para que este tente classificá-los corretamente.
Para que seja possível classificar corretamente dados de input, é necessário escolher um classificador à medida do problema e dos dados disponíveis.
Para isto existe um conjunto relativamente alargado de classificadores, alguns mais académicos que outros, que devem ser conjugados de forma a obter-se o melhor resultado possível:
- Naïve Bayes
- Instance Based
- Decision Trees
- Neural Networks
Em muitas situações existe a necessidade de que o outcome que estamos a tentar atingir se expresse de uma forma contínua e não categórica, como um preço, valor ou idade.
Para esses casos não podemos utilizar classificadores que apenas operam sobre classes de valores e necessitamos de utilizar abordagens diferentes como:
- Linear Regression
- Support Vector Machines
De forma a conseguir-se uma boa prestação dos classificadores, existe um conjunto de abordagens capazes de utilizar diferentes classificadores, permitindo a criação de um sistema de votação de forma a obter melhor performance.
Alguns dos métodos utilizados são:
- MajorityVoting
- Bagging
- RandomForests
- Stacking
Para que seja possível utilizar a capacidade destes algoritmos, existem ferramentas que permitem aplicá-los sobre os dados e gerar resultados em função disso.
É frequente a utilização de linguagens de programação como Python e R, que através das suas API, proporcionam a possibilidade de utilizar estes algoritmos e aplicá-los sobre os dados, com ótimos resultados de performance.