As duas categorias de ferramentas utilizadas para analisar os dados de um Data Warehouse são as ferramentas de consulta OLAP e as ferramentas de Data Mining.
Com as ferramentas OLAP, a exploração é efectuada com base na verificação, isto é, o analista conhece a questão, elabora a hipótese e utiliza a ferramenta para refutá-la ou confirmá-la .
Com as ferramentas de Data Mining, a questão de partida é total ou parcialmente desconhecida e a ferramenta é utilizada para procurar conhecimento, ou seja, para encontrar padrões, regras e factos nos dados armazenados numa determinada fonte de dados.
Neste caso, os processos utilizados pertencem ao domínio da Análise de Dados, sendo, numa primeira fase, aplicados procedimentos de análise e identificação de “Clusters” numa amostra dos dados e, na fase seguinte, utilizando a população de dados remanescente para validar ou refutar as hipóteses entretanto identificadas .
Deste modo, abaixo se definem os componentes a identificar num processo de Data Mining:
Um Padrão é um conjunto de linhas que partilham os mesmos valores em duas ou mais colunas;
Um Facto corresponde a um Padrão com um grau de certeza superior a 50%;
Uma Regra pode ser deduzida com a existência de um Facto, ou de um Padrão que se verifique em mais de 50% dos casos.
As 5 Fases do processo de Data Mining
Relativamente às fases do processo de Data Mining, este inicia-se sempre pela fase do conhecimento do domínio em que se avaliam os conteúdos dos dados e as possibilidades tecnológicas do meio envolvente.
O processo de Data Mining prossegue com três fases iterativas:
Pré-processamento; Extracção de padrões; Pós-processamento;
Por fim, utilizam-se os conhecimentos adquiridos neste procedimento.
1. As fases iterativas ou cíclicas são sempre antecedidas pela fase do conhecimento do domínio. Nesta fase são definidos e compreendidos pelo analista, conjuntamente com o especialista do domínio, os domínios da aplicação e as suas fontes de dados;
2. A fase do pré-processamento consiste na realização de uma selecção de dados a partir das fontes, de acordo com os objectivos definidos pelo processo de Data Mining. Em seguida procede-se à limpeza e preparação desses dados;
3. Na fase de extracção de padrões aplicam-se os métodos estatísticos e utilizam-se as ferramentas de Data Mining para encontrar relacionamentos ocultos nos dados de forma a se encontrarem e extraírem padrões válidos e factos úteis;
4. Na fase de pós-processamento, validam-se os padrões encontrados quanto à sua qualidade e utilidade para que possam ser utilizados na última fase deste processo;
5. Na fase da utilização do conhecimento, o decisor tem em seu poder informação que lhe possibilita um maior conhecimento e que o vai auxiliar a tomar as decisões mais adequadas para a organização.
O processo de Data Mining prossegue com três fases iterativas:
Pré-processamento; Extracção de padrões; Pós-processamento;
Por fim, utilizam-se os conhecimentos adquiridos neste procedimento.
1. As fases iterativas ou cíclicas são sempre antecedidas pela fase do conhecimento do domínio. Nesta fase são definidos e compreendidos pelo analista, conjuntamente com o especialista do domínio, os domínios da aplicação e as suas fontes de dados;
2. A fase do pré-processamento consiste na realização de uma selecção de dados a partir das fontes, de acordo com os objectivos definidos pelo processo de Data Mining. Em seguida procede-se à limpeza e preparação desses dados;
3. Na fase de extracção de padrões aplicam-se os métodos estatísticos e utilizam-se as ferramentas de Data Mining para encontrar relacionamentos ocultos nos dados de forma a se encontrarem e extraírem padrões válidos e factos úteis;
4. Na fase de pós-processamento, validam-se os padrões encontrados quanto à sua qualidade e utilidade para que possam ser utilizados na última fase deste processo;
5. Na fase da utilização do conhecimento, o decisor tem em seu poder informação que lhe possibilita um maior conhecimento e que o vai auxiliar a tomar as decisões mais adequadas para a organização.
IN: BALANCED SCORECARD EM PORTUGAL, CAP.3 - BSC – O Ambiente de análise e as Tecnologias de Informação
Sem comentários:
Enviar um comentário