Número de Visitas:
Carlos Sousa

Vantagens e desvantagens na utilização de Datamining
Relação entre Datamining e Datawarehouse
Principais fornecedores de Datamining
O objecto deste trabalho consiste no estudo de Datamining, a sua definição, aplicações, benefícios e desvantagens.
Este trabalho foi efectuado no âmbito da cadeira de Programação por Objectos do curso do 3º ano de Informática de Gestão do ISMAG/ISHT do pólo de Portimão leccionada pelo mestre Francisco Melo Pereira.
Janeiro de 2004
|
H |
oje em dia, a maioria das empresas/organizações produz mais dados numa semana do que muitas pessoas irão ler em toda uma vida!
Ora, quanto mais dados menos informação. É pois preciso uma aplicação de processos de análise inteligente, visando manipulação automática de quantidades imensas de dados e que proporcione uma larga aplicação nos mais variados ramos da indústria, comércio, medicina, governo, administração, etc.
Os dados armazenados digitalmente sofreram um aumento drástico nos últimos 40 anos e continuam a crescer cada vez mais. Os mais comuns meios de tratamento de dados falham quando se deparam perante enormes quantidades de dados. O Datamining é especialista neste tipo de desafios.

Fig. 1 - Evolução do armazenamento de dados em formato digital
O Datamining é capaz de inter-relacionar informações antigas com as do presente e predeterminar as de futuro, pois consegue prever o comportamento do consumidor, e anunciar de que modo se deve gerir produtos e negócios, permitindo assim o aumento de performance numa determinada empresa/organização.
Assim, o Datamining tem vindo a ser utilizado pelas empresas/organizações cujos responsáveis ambicionam uma melhor gestão, produtividade, modo de negociar e uma resposta perante a rivalidade/concorrência. As principais empresas aderentes são instituições bancárias, seguradoras e empresas de segurança.
Dados em bruto raramente tem benefícios directos. O seu verdadeiro valor é verificado na habilidade de extrair informações úteis para suporte de decisão ou exploração e entender o fenómeno de gestão de bases de dados.
Apesar do termo Datamining ter se tornado bastante popular nos últimos anos, existe ainda uma certa confusão quanto a sua definição.
Datamining é o processo de extrair informação válida, previamente desconhecida e de máxima abrangência a partir de grandes bases de dados, usando-as para efectuar decisões fundamentais. É o processo de descoberta de novas correlações, padrões e tendências entre as informações de uma empresa.
Datamining é muito mais do que simples consulta a uma base de dados, no sentido em que permite aos utilizadores explorar e inferir informação útil a partir de dados, descobrindo relacionamentos escondidos numa base de dados. Pode ser considerada uma forma de descobrimento de conhecimento (KDD - Knowledge Discovery in Databases), área de pesquisa de bastante evidência no momento, envolvendo Inteligência Artificial e bases de dados.
Datamining pode ser utilizado com os seguintes objectivos:
ü Explicativo: explicar algum acontecimento ou medida observada, tal como porque é que o consumo de cerveja caiu na Praia da Rocha;
ü Confirmativo: confirmar uma hipótese. Uma companhia de seguros, por exemplo, pode querer examinar os registos dos seus clientes para determinar se famílias de duas rendas tem mais probabilidade de adquirir um plano de saúde do que famílias de uma renda;
ü Exploratório: analisar os dados procurando novos relacionamentos e não previstos. Uma companhia de cartões de crédito pode analisar seus registos históricos para determinar que factores estão associados a pessoas que representam risco para créditos.
Especialmente devido ao alto custo envolvido, estas ferramentas eram unicamente utilizadas, ate o momento, por grandes corporações e instituições governamentais. A maior parte das actividades de Datamining ficava restrita a especialistas, empresas que ofereciam os seus serviços de análise, mas sem entregar aos clientes os seus métodos e ferramentas. Com o grande aumento do volume de dados nas empresas e com o crescimento do uso de tecnologia de bases de dados, especialmente de Datawarehouse, as técnicas de Datamining assumiram papel importante no suporte aos processos de tomada de decisão e devem, aos poucos, ganhar mercado entre as empresas de menor porte.
Várias empresas bem sucedidas estão a optar por Datamining no auxílio a tomadas de decisões mais eficientes. A partir do uso de técnicas analíticas exactas, o Datamining possibilita a transformação dos dados em informações importantes ao desenvolvimento de estratégias para aumentar a vantagem competitiva de mercado.
Ao dedicar tempo, esforço e recursos na construção de bases de dados, pode-se obter facilmente o retorno dos investimentos com Datamining. O Datamining faz parte de um ciclo contínuo - um processo que combina dados acumulados sobre os seus clientes com as interacções que se realiza com eles. Com o uso do Datamining, é possivel identificar novas oportunidades num determinado negócio, transformando os dados contidos nas bases de dados em informações importantes para o relacionamento com os clientes. Ao analisar os resultados obtidos através deste processo, pode-se resolver problemas complexos e tomar decisões mais inteligentes e eficazes.
Um gestor de uma empresa tem à mão, diariamente:
ü Levantamento de dados – permite ter, a partir das análises dos dados, resultados mais claros. É possível filtrar os dados onde quer que eles estejam, num Datawarehouse, num Datamart ou numa base de dados do seu sistema. É possível até mesmo incluir dados externos como os de pesquisas de mercado ou dados comprados.
ü Reunir dados históricos e entender o passado para tomar melhores decisões no futuro – É fácil entender dados históricos. Analisando profundamente as suas informações e obter uma maior compreensão de "o quê" e "quando" envolvem um processo. Médias, medianas, cálculos e percentagens que ajudarão a analisar e compreender tendências nas bases de dados, bem como identificar onde mais as análises são necessárias. Ou então, partilhar os dados com os principais “Decision Makers”. Distribuir relatórios dinâmicos rapidamente via Web ou através de e-mail, para que outros, possam através destes relatórios responder as suas próprias questões.

Fig. 2 – Distribuição de vendas, por semana, de determinada empresa
ü Segmentar o mercado e consumidores para programas mais direccionados - Identificar e entender grandes grupos de consumidores são os primeiros passos em direcção ao desenvolvimento de programas mais eficientes. Compreendendo melhor quem está disposto a adquirir os produtos e serviços, e que vai permitir o direccionamento das acções e aumentar a eficiência destas, optimizando o orçamento de marketing.
E, finalmente:
ü Obter o retorno do investimento em bases de dados - É possível assegurar o retorno dos investimentos com o Datamining. Os resultados de uma aplicação geralmente compensam o investimento nas bases de dados. Quer seja uma empresa na área de marketing, vendas, finanças, operações, tecnologia de informação ou qualquer área funcional, pode-se obter, através de Datamining, o retorno esperado dos investimentos.
As fases
que vou descrever a seguir, começam com os dados em bruto e terminam com o
conhecimento extraído que é adquirido como resultado de todo o processo:
Selecção – seleccionando ou segmentando os dados de acordo com algum critério, por exemplo, todas as pessoas que possuem um carro, deste modo subconjuntos dos dados podem ser determinados;
Pré-processamento – Esta é a fase de limpeza dos dados onde certas informações são removidas desde que sejam consideradas desnecessárias. Estas informações não pertinentes podem reduzir a velocidade de "queries" (consultas) como por exemplo é desnecessário anotar o sexo de um doente quando se está a estudar gravidez.
Também os dados são reconfigurados para assegurar um formato consistente pois há uma possibilidade de formatos incompatíveis. Isto porque os dados são extraídos de várias fontes, por exemplo, o sexo pode ser registrado como f ou m e também como 1 ou 0.
Transformação – Os dados não são somente transferidos mas transformados em dados úteis, tais como dados demográficos frequentemente utilizados em pesquisas de mercado. Então os dados tornam-se utilizáveis e navegáveis.
Datamining – Esta fase preocupa-se com a extracção de padrões dos dados. Um padrão pode ser definido como determinado conjunto de factos (dados) F, uma linguagem L, e alguma medida de certeza C. Um padrão é uma declaração S em L que descreve relações entre um subconjunto F’s de F com uma certeza C tal aquele S é mais
simples em alguma sensação que a enumeração de todos os factos em F’s.
Interpretação e avaliação – Os padrões identificados pelo sistema são interpretados em conhecimento que pode então ser usado para apoiar decisões humanas como por exemplo classificar tarefas, resumir os conteúdos de uma base de dados ou explicar fenómenos observados.
Os principais motivos que tem levado as empresas a investir nessa tecnologia tem sido a obtenção de uma melhor visão sobre a extensão base de dados e a revelação de relações implícitas e padrões entre os dados que nem sempre são visíveis através da simples observação. Há três razões principais para se desenvolver um projecto de DM (Datamining).
1. Visualização de dados: As empresas precisam de dar significado a uma quantidade cada vez maior de informações nas suas Bases de Dados. Antes de realizar qualquer análise, o objectivo é qualificar e armazenar os dados a serem trabalhados e encontrar novas formas de visualizá-los de forma mais natural e transparente para os utilizadores.
2. Descoberta de novos conhecimentos: A maior parte das aplicações actuais de DM enquadram-se nesta tecnologia cujo objectivo é explicitar relacionamentos ocultos, padrões e correlações entre os diferentes dados existentes na BD da empresa.
3. Qualidade dos dados: muitas vezes, as empresas descobrem que os seus dados são incompletos, errados ou contraditórios.
é, então necessário obter dados cada vez mais consistentes para processamento e análise futura.

Fig. 3 – Diagrama de um processo de Datamining
Ferramentas:
ü Técnicas estatísticas;
ü Visualização;
ü Arvores de decisão;
ü Regras de associação;
ü Algoritmos genéricos;
ü Redes neurais.
Embora recente, a história do Datamining já tem casos bem conhecidos. O mais divulgado é o da cadeia americana “Wal-Mart”, que identificou um hábito curioso dos consumidores. Há cinco anos, ao procurar eventuais relações entre o volume de vendas e os dias da semana, o software de Datamining descobriu que, às Sextas-feiras, as vendas de cervejas cresciam na mesma proporção que as de fraldas. Crianças a beberem cerveja?? Não, uma investigação mais detalhada revelou que, ao comprar fraldas para seus bebés, os pais aproveitavam para abastecer o “stock” de cerveja para o final de semana.
Outro exemplo é o do “Bank of América”. Usou técnicas de Datamining para seleccionar, de entre 36 milhões de clientes, aqueles com menor risco de não pagar o empréstimo. A partir desses relatórios, enviou cartas em que oferecia linhas de crédito para os clientes cujos filhos tivessem entre 18 e 21 anos e, portanto, precisassem de dinheiro para ajudar os filhos a comprar o próprio carro, uma casa ou pagar os gastos do ensino superior. Resultado: em três anos, o banco lucrou 30 milhões de dólares.
Vantagens e Desvantagens na utilização de Datamining
Em todas as aplicações existem as diversas vantagens e desvantagens do seu uso. Resumidamente vou enunciar algumas das mais importantes:
Vantagens:
ü Modelo de fácil compreensão;
ü Analisar Grandes bases de dados;
ü Descoberta de informações inesperadas;
ü Variáveis que não necessitam de recodificação;
ü Os Modelos são precisos;
ü Os Modelos são construídos e actualizados rapidamente.
As desvantagens assemelham-se a todas as aplicações deste tipo (ERP, CRM, etc.) e tendem a impedir que a aplicação seja correctamente implementada, mas com algum custo e dedicação é possível superar algumas, se não todas estas barreiras.
Desvantagens:
ü Alto custo;
ü Necessidades de grandes bases de dados;
ü Novidade e complexidade;
ü Criar ambientes ideais;
ü Interacção muito forte com analistas humanos.
O potencial do Datamining pode ser aumentado se os dados apropriados forem coleccionados e armazenados num Datawarehouse. Um Datawarehouse é um sistema de administração de bases de dados relacional (RDMS) especificamente projectado para satisfazer as necessidades de sistemas de processamento de transacções. Pode ser definido como depósito de dados centralizado que pode ser examinado para o benefício do negócio mas isto será definido mais claramente depois ao explicar as suas características. Datawarehousing é uma nova técnica poderosa que torna possível extrair dados operacionais arquivados e inconsistências superadas entre formatos de dados de proveniências diferentes. Como também integram dados ao longo de um empreendimento, indiferentemente da localização, formato, ou exigências de comunicação é possível incorporar informação adicional ou especialista. É, o vínculo lógico entre o que os gerentes vêem no apoio das suas decisões de aplicações de EIS e as actividades operacionais da companhia, noutras palavras o Datawarehouse testa dados que já são transformados e resumidos e por esta razão fazem isto num ambiente apropriado para maior eficiência de aplicações de DSS e de EIS.
Características de um Datawarehouse:
Geralmente há quatro características que descrevem um Datawarehouse:
1. Organização por assunto: Os dados são organizados por assunto em vez de aplicação, como por exemplo uma companhia de seguros que usa um Datawarehouse que organiza os seus dados por cliente, prémios, e
reivindicação, em vez de, através de produtos diferentes (automóvel, seguros de vida, etc.). Os dados organizados por assunto contêm só a informação necessária para processo de apoio de decisão;
2. Integrado: Quando os dados residem em muitas aplicações separadas no ambiente operacional, a codificação dos dados é frequentemente inconsistente. Por exemplo, numa aplicação, o sexo poderia ser codificado como " m " e " f " e noutro por 0 e 1. Quando os dados são movidos do ambiente operacional para o Datawarehouse, eles assumem uma convenção de codificação consistente. Por exemplo dados de sexo são transformados em " m " e " f ";
3. Espaço de tempo: O Datawarehouse contém um lugar para armazenar dados que possuem de cinco a dez anos de utilização, ou mais, sendo usado para comparações, tendências e prevenções. Estes dados não são actualizados;
4. Não-volátil: Uma vez que entram no Datawarehouse, os dados não são actualizados ou mudados de alguma forma, mas somente são carregados e acedidos.
Processos de um Datawarehouse:
A primeira fase em Datawarehousing é "separar" a informação operacional actual, para preservar a segurança e a integridade das aplicações OLTP, enquanto permite o acesso à maior base de dados possível.
A base de dados resultante ou Datawarehouse pode consumir centenas de gigabytes ou até terabytes de espaço de disco, o que se requer então são técnicas eficientes para armazenar e recuperar quantias volumosas de informação. Crescentemente, grandes organizações acham que somente sistemas de processamento paralelo oferecem largura de banda suficiente.
O Datawarehouse assim recupera dados de uma variedade de bases de dados operacionais heterogéneas. Os dados são transformados então e são entregues ao “warehouse/store” de dados baseado num modelo seleccionado ou previamente definido. A transformação dos dados e a movimentação dos processos são executados sempre que uma actualização para os dados de warehouse é requerida, assim aí deve existir alguma forma de automatização para a administração e execução das tarefas em questão.
A informação que descreve o modelo e a definição dos elementos de fonte de dados são chamados "elementos metadata". O metadata é o meio pelo qual o utilizador final encontra e entende os dados no warehouse e é uma importante parte do warehouse.
O metadata deve conter:
ü A estrutura dos dados;
ü O algoritmo usado para “summarization”;
ü A cartografia do ambiente operacional para o Datawarehouse.
A “Limpeza” dos dados é um aspecto importante para a criação de um Datawarehouse eficiente, naquilo que é a remoção de certos aspectos de dados operacionais, como informação de transacções de baixo nível que reduzem os tempos de consulta.
A fase de limpeza tem que ser tão dinâmica quanto possível para acomodar todos os tipos de consultas, até mesmo aquelas que podem requerer informação de baixo nível. Os dados deveriam ser extraídos de
fontes de produção em intervalos regulares e deveriam ser agrupados centralmente, mas o processo de limpeza tem que remover duplicações e reconciliar as diferenças entre os vários estilos de formatação de dados
Uma vez os dados limpos, eles são então transferidos para o Datawarehouse que, tipicamente, ou é uma grande base de dados de alto desempenho SMP – Simetric Multi Processing (Multi-Processamento Simétrico) ou MPP – Mass Paralel Processing (Processamento paralelamente em massa).
O poder
de processamento de números é outro aspecto importante do Datawarehousing por
causa da complexidade envolvida no processamento de consultas “ad hoc[1]”
e por causa das vastas quantidades de dados que a organização quer usar no
warehouse. Um Datawarehouse pode ser usado de modos diferentes, como por
exemplo, pode ser usado como uma loja central contra a qual as consultas são
"utilizadas" ou pode ser usado como um mercado de dados. Mercados de dados que
são pequenos warehouse e que podem ser estabelecidos para prover subconjuntos da
loja principal e prover informação resumida, dependendo das exigências de um
grupo/departamento específico.
A aproximação da loja central geralmente usa uma estrutura de dados
muito simples com suposições muito pequenas sobre as relações entre dados
enquanto que mercados usam frequentemente bases de dados multi-dimensionais que
podem acelerar o processamento de consultas que, como ela, podem ter estrutura
de dados que é reflectido em perguntas prováveis.
Muitos vendedores têm produtos que provêem de uma ou mais funções de Datawarehouse descritas acima. Porém, pode levar uma quantia significante de trabalho e programação especializada para prover a interoperabilidade necessária entre produtos de múltiplos vendedores e permitir a execução dos processos de Datawarehouse exigidos.
Uma implementação típica normalmente envolve uma mistura de produtos de uma variedade de provedores.
Outra aproximação para Datawarehousing é o Paradigma de Sanduíche de Parsaye avançado por Dr. Kamran Parsaye, CEO de Descoberta de Informação, Hermosa Beach, CA. Este paradigma ou filosofia encoraja aceitação da probabilidade que a primeira repetição de um esforço Datawarehousing requererá revisão considerável. O Paradigma de Sanduíche defende a seguinte aproximação:
ü Selecção dos dados para determinar que formatos e dados são necessários para apoiar uma aplicação de Datamining;
ü Construção de um protótipo de mini Datawarehouse, isto é, a carne da sanduíche, com a maioria das características imaginadas para o produto final;
ü Revisão das estratégias se necessário;
ü Construção do final warehouse.
[1] ad-hoc – Possibilita a interacção directa entre o utilizador e o sistema. Facilita a recolha de informação.
Datawarehouse e sistemas OLTP:
Sistemas OLTP (On Line Transaction Processing) utilizados em soluções de DW são muito bons para armazenar informações em BD de forma rápida, eficiente e com segurança, mas deixam a desejar em relação à extracção e análise qualitativa das informações. Por essas razões, as técnicas e ferramentas de Datamining podem trazer grandes resultados para as empresas que as utilizarem. Entretanto, se os projectos de Datamining forem mal planeados e implementados, também se podem tornar numa decepção. Embora as técnicas e ferramentas de Datamining estejam ainda muito imaturas, muitas empresas já tem investido e usado satisfatoriamente essa tecnologia.
Uma base de dados que é construída para processamento de transacções on-line, OLTP, geralmente é considerada inadequada
para Datawarehousing pois eles foram projectados com um conjunto diferente de necessidades, isto é, capacidade de transacções maximizadas e tipicamente tendo centenas de tabelas, etc.
Sistemas OLTP não podem ser repositórios de factos e dados históricos para análise empresarial. Não podem responder rapidamente a consultas “ad hoc” e a recuperação rápida é quase impossível. Basicamente, o OLTP oferece grandes quantidades de dados em bruto que não são entendidos facilmente. O Datawarehouse oferece o potencial de recuperar e analisar informação rapidamente e facilmente.
Os servidores de Datawarehouse tem um propósito diferente da dos sistemas de OLTP pois permitem responder às questões de análise empresariais ao invés de "agregações" simples como “Qual o saldo actual da conta para este cliente?” Questões típicas de Datawarehouse incluem tais coisas como “Que linha de produto vende melhor na Europa”e como isto é relacionado a dados demográficos?”
O modelo de Datawarehouse:
Datawarehousing é o processo de extrair e transformar dados operacionais em dados de informação e carrega-los numa loja de dados central ou warehouse. Uma vez com os dados carregados, eles são acessíveis por consultas de “desktop” e ferramentas de análise pelos fabricantes de decisão.
Os dados dentro do actual warehouse tem uma estrutura distinta com ênfase em níveis diferentes de resumo. Os dados correntes detalhados são importantes por que:
ü Reflectem os mais recentes acontecimentos que normalmente são os mais interessantes;
ü São volumosos, pois são armazenados ao mais baixo nível de granularidade;
ü Quase sempre são armazenados em unidades de disco, ao qual é rápido ter acesso mas torna-se caro e de administração complexa.
Dados detalhados mais antigos são armazenados numa forma de armazenamento em massa, não sendo frequentemente acedidos e são armazenados num nível consistente detalhado, com dados correntes detalhados.
Dados ligeiramente resumidos são dados processados ao mais baixo nível de detalhe encontrado e geralmente são armazenados em unidades de disco. Ao se construir o Datawarehouse têm que se considerar em que unidade de tempo é realizado o resumo e também os conteúdos ou que atributos é que os dados resumidos conterão.
Dados altamente resumidos são compactos e facilmente acessíveis e podem ser achados até mesmo fora do warehouse.
Metadata é o componente final do Datawarehouse e é de uma dimensão realmente diferente e não é igual a dados retirados do ambiente operacional mas é usado como:
ü Um directório para ajudar o analista de DSS a localizar os conteúdos do Datawarehouse;
ü Um guia para o manuseamento de dados como os dados são transformados do ambiente operacional para o ambiente de Datawarehouse;
ü Um guia para os algoritmos usados para sumarização entre os dados detalhados actuais, os dados ligeiramente resumidos e os dados altamente resumidos.
Critérios para um Datawarehouse:
ü Performances de carregamento – Os Datawarehouse requerem carregamento com incremento de novos dados numa base periódica dentro de janelas de tempo restrito; o desempenho do processo de carga deveria ser medido em centenas de milhões de filas e gigabytes por hora e não deve artificialmente constranger o volume de dados requeridos pelo negócio.
ü Processamento de Carga – Muitos passos devem ser efectuados para carregar dados novos ou actualizados no Datawarehouse incluindo conversões de dados, filtragem, reformatação, verificações de integridade, armazenamento físico, indexação e actualização de metadata. Estes passos devem ser executados como uma única unidade de trabalho.
ü Qualidade de administração de dados – A troca para a administração baseada em factos exige a mais alta qualidade de dados. O warehouse deve assegurar consistência local, consistência global, e integridade referencial apesar de "fontes sujas" e base de dados volumoso. Enquanto que, para carregamento e preparação são necessários passos, eles não são suficientes. Processamento de consultas é a medida de sucesso para uma aplicação de Datawarehouse. Conforme mais perguntas são respondidas, os analistas são catalogados para fazer questões mais criativas e com melhor elaboração.
ü Desempenho de Consultas – Administração baseada em factos e análise “ad-hoc” não devem ser consideradas ultrapassadas ou inibidas pelo desempenho do Datawarehouse RDBMS; grandes consultas, complexas para operações de negócios chave devem ser completadas em segundos, não em dias.
ü Capacidade Terabyte – Os tamanhos dos Datawarehouses estão a crescer para tamanhos surpreendentes. Hoje estes variam de alguns a centenas de gigabytes, e Datawarehouse de terabyte de tamanho será um próximo passo. O RDBMS não deve ter nenhuma limitação arquitectónica. Deve suportar administração modular e paralela. Deve suportar disponibilidade continuada no caso de um fracasso de ponto, e tem que provir de um mecanismo fundamentalmente diferente para recuperação. Deve suportar dispositivos de armazenamento de massa como disco óptico e dispositivos de Administração de Armazenamento Hierárquicos. Ultimamente, o desempenho de consultas não deve ser dependente do tamanho da base de dados, mas apenas da complexidade da questão.
ü Multi-utilizadores – O acesso aos dados do warehouse não deve ser restrito a uma elite apenas. O servidor de RDBMS tem que suportar centenas, até mesmo milhares, de utilizadores simultâneos enquanto mantêm o desempenho das consultas de modo aceitável.
ü Redes de Datawarehouse – Os Datawarehouses raramente existem de modo isolado. Sistemas de múltiplos Datawarehouses cooperam numa rede maior de Datawarehouses. O servidor deve incluir ferramentas que coordenam o movimento de subconjuntos de dados entre warehouses. Os Utilizadores devem ser capazes de olhar e trabalhar com múltiplos warehouses de uma única “workstation” client. Os gerentes de warehouse têm que gerir e administrar a rede de warehouse de uma única localização física.
ü Administração de warehouse – A escala muito grande e natureza “time-cyclic” do Datawarehouse exige facilidade administrativa e flexibilidade. O RDBMS deve providenciar controles para implementar limites de recurso, etc. O RDBMS também tem que providenciar a localização e afinação de carga de trabalho de modo que recursos de sistemas possam ser aperfeiçoados para máximo desempenho e processamento. É comprovado " O valor mais visível e mensurável de implementação de um Datawarehouse é comprovado no acesso desinibido, criativo para dados que provêm do utilizador final.
ü Análise Dimensional integrada – O poder de visões multi-dimensionais é aceitado amplamente, e apoio dimensional deve ser inerente no warehouse RDBMS para providenciar o desempenho mais alto para ferramentas OLAP relacionais. O RDBMS deve suportar criação rápida, fácil de resumos de pré-computação comum em Datawarehouses grandes. Também deveria garantir as
ferramentas de manutenção para automatizar a criação destes agregados de pré-computação. O cálculo dinâmico de agregados deveria ser consistente com as necessidades interactivas de desempenho.
ü Funcionalidade de consulta avançada – Os utilizadores finais requerem cálculos analíticos avançados, análise sequencial e comparativa, e acesso consistente para detalhar e resumir dados. Usando SQL num ambiente de ferramenta “point-and-click” cliente/servidor às vezes pode não ser prático ou até mesmo impossível. O RDBMS tem que garantir um conjunto completo de operações analíticas incluindo operações sequenciais e estatísticas.
Relação entre Datamining e Datawarehouse
Existe uma relação simbiótica entre a actividade de Datamining e Datawarehouse – a fundação da arquitectura dos sistemas de suporte à decisão. Os Datawarehouse organizam o estágio para um efectivo processo de Datamining. O Datamining pode ser feito onde não exista nenhum Datawarehouse, mas este, aumenta as hipóteses de sucesso do Datamining.
Como os Datawarehouse organizam o estágio? Considerando a natureza dos Datawarehouse, os quais incluem:
ü Dados integrados;
ü Dados detalhados e resumidos;
ü Dados históricos;
ü Metadados.
Cada um destes elementos melhora o processo de Datamining e as hipóteses de sucesso:
Dados Integrados permitem ao responsável pelo processo de filtragem dos dados visualizar de forma rápida e fácil os dados. Sem dados integrados, o responsável gastaria uma grande parte de tempo a apagar e a condicionar os dados antes do processo de Datamining poder então iniciar efectivamente. As chaves teriam que ser reconstituídas, os valores codificados e reconciliados, as estruturas de dados padronizadas, etc., para que o responsável não tivesse que trabalhar no processo de Datamining com dados em bruto.
Os Datawarehouse são integrados e têm todas essas tarefas (entre outras) feitas, portanto o seu responsável pode concentrar-se no processo de Datamining ao invés de limpar e integrar os dados.
Dados detalhados e resumidos são ambos incluídos nos repositórios de dados. Dados detalhados são necessários quando o responsável deseja examinar os dados na sua forma mais granular. Níveis muito baixos de detalhes importantes de modelos que não podem ser discernidos a não ser pela cuidadosa análise dos detalhes dos dados. Justamente por isso, dados resumidos asseguram que se uma análise prévia já foi feita, o criador não tem que repetir o trabalho que alguém já fez antes dele começar o processo de exploração. Dados resumidos asseguram que o criador/responsável pode utilizar o trabalho dos outros ao invés de fazer todo o processo desde o início. Esta capacidade proporciona verdadeira e fácil disponibilidade dos dados resumidos, salvando muito trabalho desnecessário de selecção.
Dados Históricos são importantes para o responsável pela criação de Datamining porque grande quantidade de dados está implicitamente guardada lá. Um criador que tem que trabalhar somente com informações actuais pode nunca detectar tendências e padrões de comportamento ao longo do tempo. Informações históricas são cruciais para entender o condicionamento dos negócios.
Metadados servem como um mapa das estradas para o responsável, o qual usa os Metadados para descrever não o conteúdo mas sim o contexto da informação. Quando a informação está a ser examinada, com o passar do tempo, o contexto torna-se mais importante que o conteúdo. Noutras palavras, torna-se muito difícil para o criador trabalhar com conteúdos de dados em bruto quando não existe explicação a respeito do significado dos dados.
Consequentemente, os repositórios de dados organizam o estágio para um sucesso e eficácia na exploração do mundo dos dados, e o responsável que trabalha nessas fundações de repositórios de dados, aproveita o sucesso que vem com a exploração desses dados como um recurso.
Principais fornecedores de Datamining
Embora o Datamining não seja uma tecnologia muito recente, só recentemente emergiu das lojas, laboratórios de pesquisa, e de dezenas de fornecedores. A disponibilidade dos Datawarehouses e o baixo custo de armazenamento, contribuíram certamente para a sua expansão, mas hoje em dia, o aumento do interesse em Datamining deve-se à explosão do E-Commerce. Departamentos de vendas e marketing querem expandir dados para a Web de forma a utilizarem um “one-to-one marketing”.
Se o processo de “filtrar” dados de clientes para aumentar vendas, lucros, reduzir riscos ou detectar fraudes não é suficiente para lançar o Datamining para a ribalta, existe sempre o factor Microsoft. A Microsoft Corp. aventurou-se no mercado do Datamining quando a Redmond Wash., criadora de software, anunciou o inicio do trabalho em extensão OLE DB, extensões estas especificadas para Datamining, em Maio de 1999. O projecto foi um esforço conjunto entre o “The Microsoft SQL Server group” e o “Microsoft Research’s Data Mining & Exploration Group” dirigido por Usama Fayyad em conjunto com um restricto de fornecedores (que falarei mais em baixo). OLE DB é uma especificação para um conjunto de dados com interface Access destinado a tornar o aceso de dados de forma heterogénea. É considerado o sucessor das bases de dados abertas em conectividade (ODBC - “Open Database connnectivity”) e já se propagou a análises e processamento online (OLAP – “Online Analytic Processing) para uma grande variedade the mercados verticais.
Existem dezenas de fornecedores de Datamining, embora existam já algumas indústrias que tenham iniciado fusão. Por ora, não existe um claro líder de mercado, e a maioria dos produtos são caros e de difícil uso. São geralmente desenvolvidos para trabalhar em sistemas
operativos UNIX para matemáticos ou estatísticos, e não especialmente para bases de dados. O analista de mercado de aplicações de Datamining Herb Edelstein, "Data Mining '99: Technology Report" é a melhor fonte de informação acerca de mercado Datamining. Edelstein enuncia os seguintes fornecedores de aplicações Datamining:
ü AbTech Software (ModelQuest MarketMiner);
ü *Angoss Software (KnowledgeSEEKER, KnowledgeSTUDIO);
ü Attar Software (XpertRule Miner);
ü Business Objects (BusinessMiner);
ü Cognos Software (4Thought, Scenario);
ü Group 1 (Model 1);
ü HNC Software Inc. (DataBase Mining Marksman);
ü Integral Solutions (Clementine, acquired by SPSS in 1998);
ü IBM (Intelligent Miner);
ü Magnify (PATTERN);
ü MathSoft (S-Plus);
ü NCR (TeraMiner);
ü NeoVista Software (Decision Series);
ü Oracle (OLAP Software);
ü Quadstone (Decisionhouse);
ü Salford Systems (CART, MARS);
ü *SAS Institute (Enterprise Miner);
ü *Silicon Graphics (MineSet);
ü *SPSS (Base, AnswerTree, Neural Connection);
ü Tandem Division of Compaq;
ü Thinking Machines (Darwin, Adquirida pela Oracle 1999);
ü Torrent Systems (Orchestrate Analytics);
ü Trajecta (dbProphet);
ü Unica Technologies (PRW) ;
ü Urban Science Applications (GainSmarts) ;
* Estes Fornecedores colaboraram com a Microsoft para criar o modelo OLE DB. Mais dois fornecedores, E. Piphany e Datasage, tambem ajudaram a criar o modelo inicial.
O “OLAP Server” entrega aplicativos analíticos para análise rápida, intuitiva e multi-dimensional, permitindo que os utilizadores façam perguntas numa linguagem de negócios intuitiva.
Processa pedidos multi-dimensionais que calculam, consolidam e recuperam informações de uma base de dados multi-dimensional, de uma base de dados relacional, ou de ambos.
Cria os seus próprios aplicativos ou tem soluções prontas para utilizar, construídas para se utilizar com muitos aplicativos, ferramentas e provedores de soluções que suportam DB2 OLAP Server. Executa análises, tais como: "Exibir o lucro dos produtos com o mais alto e o mais baixo desempenho do último trimestre em regiões de vendas domésticas de uma empresa."
Inclui a utilização do DB2 OLAP Server Miner, combinando questões tradicionais "hipotéticas" com análise orientada a descobertas. Oferece extracção de dados intensa, orientada por computador, baseada em algoritmo para a descoberta de valores não esperados.
Benefícios
"Online analytical processing", ou OLAP fornece para organizações um método de aceder, visualizar, e analisar dados corporativos com alta flexibilidade e performance. No mundo globalizado de hoje as empresas estão a enfrentar uma maior concorrência e a expandir sua actuação para novos mercados. Portanto, a velocidade com que executivos obtêm informações e tomam decisões determina a competitividade de uma empresa e o seu sucesso de longo prazo. OLAP apresenta informações para utilizadores via um modelo de dados natural e intuitivo. Através de um simples estilo de navegação e pesquisa, os utilizadores finais podem rapidamente analisar inúmeros cenários, gerar
relatórios "ad-hoc", e descobrir tendências e factos relevantes independentemente do tamanho, complexidade, e fonte dos dados corporativos. De facto, colocar informação em bases de dados corporativas sempre foi mais fácil do que retirá-los. Quanto maior e complexa a informação armazenada, mais difícil é retirá-la. A tecnologia OLAP acaba com estas dificuldades levando a informação mais próxima ao utilizador que dela necessite. Portanto, o OLAP é frequentemente utilizado para integrar e disponibilizar informações gerenciais contidas em bases de dados operacionais, sistemas ERP e CRM, e Datawarehouses. Estas características tornaram-no numa tecnologia essencial em diversos tipos de aplicações de suporte à decisão e sistemas para executivos.
Modelo de Dados
Num modelo de dados OLAP, a informação é organizada em cubos que armazenam valores quantitativos ou medidas. As medidas são identificadas por duas ou mais categorias descritivas denominadas dimensões que formam a estrutura de um cubo. Uma dimensão pode ser qualquer visão do negócio que faça sentido para a sua análise, como produto, departamento ou tempo. Este modelo de dados multi-dimensional simplifica para os utilizadores o processo de formular consultas ou "queries" complexas, criar relatórios, efectuar análises comparativas, e visualizar subconjuntos “slice” de maior interesse. Por exemplo, um cubo contendo informações de vendas poderá ser composto pelas dimensões tempo, região, produto, cliente, cenário (virtual ou real) e medidas. Medidas tipo seriam o valor de venda, unidades vendidas, custos, margens, etc.
Dentro de cada dimensão de um modelo OLAP, os dados podem ser organizados por uma hierarquia que define diferentes níveis de detalhe. Por exemplo, dentro da dimensão tempo, poderá existir uma
hierarquia representando os níveis anos, meses, e dias. Da mesma forma, a dimensão região poderá ter os níveis país, região, estado e cidade. Assim, um utilizador ao visualizar os dados num modelo OLAP irá navegar para cima “drill up” ou para baixo “drill down” entre níveis para visualizar informação com maior ou menor nível de detalhe sem a menor dificuldade.

Fig. 4 – Exemplo de tecnologia multi-dimensional de Bases de Dados.
Aplicações
A aplicação do OLAP é bastante diversificada. O seu uso encontra-se em diversas áreas de uma empresa.
Alguns tipos de aplicação onde a tecnologia é empregada são:
|
ü Finanças – Análise de L&P, relatórios L&P, orçamento, análise de balanço, fluxo de caixa, contas a receber, …;
ü Vendas – Análise de vendas (por região, produto, vendedor, etc.), previsões, lucros de cliente/contrato, análise de canais de distribuição, …;
ü Marketing – Análise de preço/volume, lucro de produto, análise de mercado, …;
ü Recursos Humanos – Análise de benefícios, projecção de salários, análise de "Headcount", …; |
As seguintes aplicações de software integram OLAP Server:
ü TM1 da Applix;
ü PowerOLAP;
ü Databeacon da empresa com o mesmo nome;
ü OLAP Services da Microsoft.
Filtrar Bases de Dados é um processo muito complexo, mas que ao mesmo tempo é uma ferramenta de grande utilidade para as corporações que desejam explorar melhor as informações que estão implícitas nas suas bases de dados.
As
técnicas e as ferramentas do Datamining permitem obter uma visão melhor e
amplificada do negócio em causa, simplificando o processo de exploração de
dados, auxiliando a tomada de decisão e o uso da inteligência competitiva nas
estratégias de negócios.
O objectivo deste trabalho, é apresentar as regras de associação e também
mostrar apenas uma pequena parte do que constitui e o que vem a ser o Datamining
com alguns conceitos básicos, esclarecendo a importância desta técnica e em que
situações utilizá-la.
As regras de associação representam apenas um tipo de conhecimento que é possível se obter com a utilização do Datamining, e este trabalho apresenta uma das suas formas de descoberta através do algoritmo “APRIORI”.
Reuni com cuidado um resumo de todo o conteúdo das pesquisas efectuadas, na sua grande maioria, via Internet.
Adquiri um pouco mais a imensidão de conhecimentos que este tema proporciona, e espero que seja também valioso a quem se interessa pelo assunto.
ü http://www.inf.aedb.br/datamining/paginas.htm – Pagina informativa sobre Datamining, 18-01-2004, 15H00;
ü http://www.spss.com.br/3_datamining_1.htm – Pagina Oficial de fornecedor de Datamining, 18-01-2004, 15H50;
ü http://www.datamining.com – Pagina Oficial de Datamining, 18-01-2004, 16H00;
ü http://itmanegement.earthweb.com – Datamation, Pagina de Datamining, 18-01-2004, 14H00;
ü http://www.unifieo.br/revista/rev1999.htm - Pagina de Datamining e EIS, 18-01-2004, 14H20;
ü http://www.maki.hpg.ig.com.br/datamining/tidatamining.doc – Documento de Datamining para download, 18-01-2004, 14H30;
ü http://www.santafe.edu – Pagina de Datamining, 18-01-2004, 14H40;
ü http://www.sgi.com – Pagina de Datamining, 18-01-2004, 14H45;
ü direct.boulder.ibm.com – Pagina de Datamining, 18-01-2004, 18H00;
ü http://www.pcc.qub.ac.uk – Pagina de Datamining, 18-01-2004, 17H30;
ü http://www.google.pt – Motor de busca da Internet, 18-01-2004, 17H30;
ü Knowledge Management Press & Consulting – Documento sobre implantação de Universidades Corporativas, 15-01-2004, 10H00;
ü Aplicação da Bibliometria na Construção de Indicadores sobre a Produção Cientifica da EMBRAPA – Documento sobre aplicações, 15-01-2004, 12H00;
ü Algoritmos genéricos e Mineração de Dados – Documento de Datamining, 17-01-2004, 17H30;
ü Sistemas e Tecnologia da Informação, Data Mining – Documento de Datamining, 17-01-2004, 22H00;
ü Data Mining, Paulo Abadie Guedes, Eduardo Aranha – Documento de Datamining, 16-01-2004, 14H30;
ü KDD Knowledge Discovery Database, Data Mining, ICA Eletrica PUC-RIO, – Pagina de Datamining, 16-01-2004, 13H30;
ü Introduction to Data Mining and Knowledge Discovery, 2º Edition, Two Crows Corporation – Documento, 16-01-2004, 15H00;
ü Implementação e Desenvolvimento de uma Grade Computacional, Grupo COMCIDIS, coordenação de Ciência da Computação – Documento, 16-01-2004, 15H50;
ü Documento de Datawarehouse, 20-01-2004, 18H00;
ü Documento de OLAP Software, 20-01-2004, 17H45.