Consulta OLAP vs Data Mining

As ferramentas não devem apenas possibilitar o acesso aos dados mas também permitir análises de dados significativas, em que, dos dados em bruto possam ser extraídas informações pertinentes que possibilitem dar suporte à aquisição de conhecimento potencial, de modo a contribuir para os processos estratégicos da organização.

As duas categorias de ferramentas utilizadas para analisar os dados de um Data Warehouse são as ferramentas de consulta OLAP e as ferramentas de Data Mining.

Com as ferramentas OLAP, a exploração é efectuada com base na verificação, isto é, o analista conhece a questão, elabora a hipótese e utiliza a ferramenta para refutá-la ou confirmá-la .

Com as ferramentas de Data Mining, a questão de partida é total ou parcialmente desconhecida e a ferramenta é utilizada para procurar conhecimento, ou seja, para encontrar padrões, regras e factos nos dados armazenados numa determinada fonte de dados.
Neste caso, os processos utilizados pertencem ao domínio da Análise de Dados, sendo, numa primeira fase, aplicados procedimentos de análise e identificação de “Clusters” numa amostra dos dados e, na fase seguinte, utilizando a população de dados remanescente para validar ou refutar as hipóteses entretanto identificadas .

Deste modo, abaixo se definem os componentes a identificar num processo de Data Mining:

 Um Padrão é um conjunto de linhas que partilham os mesmos valores em duas ou mais colunas;
 Um Facto corresponde a um Padrão com um grau de certeza superior a 50%;
 Uma Regra pode ser deduzida com a existência de um Facto, ou de um Padrão que se verifique em mais de 50% dos casos.

As 5 Fases do processo de Data Mining



Relativamente às fases do processo de Data Mining, este inicia-se sempre pela fase do conhecimento do domínio em que se avaliam os conteúdos dos dados e as possibilidades tecnológicas do meio envolvente.

O processo de Data Mining prossegue com três fases iterativas:
Pré-processamento; Extracção de padrões; Pós-processamento;

Por fim, utilizam-se os conhecimentos adquiridos neste procedimento.

1. As fases iterativas ou cíclicas são sempre antecedidas pela fase do conhecimento do domínio. Nesta fase são definidos e compreendidos pelo analista, conjuntamente com o especialista do domínio, os domínios da aplicação e as suas fontes de dados;

2. A fase do pré-processamento consiste na realização de uma selecção de dados a partir das fontes, de acordo com os objectivos definidos pelo processo de Data Mining. Em seguida procede-se à limpeza e preparação desses dados;

3. Na fase de extracção de padrões aplicam-se os métodos estatísticos e utilizam-se as ferramentas de Data Mining para encontrar relacionamentos ocultos nos dados de forma a se encontrarem e extraírem padrões válidos e factos úteis;

4. Na fase de pós-processamento, validam-se os padrões encontrados quanto à sua qualidade e utilidade para que possam ser utilizados na última fase deste processo;

5. Na fase da utilização do conhecimento, o decisor tem em seu poder informação que lhe possibilita um maior conhecimento e que o vai auxiliar a tomar as decisões mais adequadas para a organização.

IN: BALANCED SCORECARD EM PORTUGAL, CAP.3 - BSC – O Ambiente de análise e as Tecnologias de Informação

Sem comentários: