Selecção de planos de mineração de dados de utilização da web

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/6533

Título:	Selecção de planos de mineração de dados de utilização da web
Autor(es):	Lacerda, Ana Cristina Wanzeller Guedes de
Orientador(es):	Belo, Orlando
Data:	28-Mai-2007
Resumo(s):	A descoberta de conhecimento em dados de clickstream, relativos à interacção de indivíduos com sítios Web, está a assumir um papel, cada vez mais, preponderante, englobando uma audiência crescente de agentes de decisão ao longo da organização. A intenção subjacente reside em auxiliar as organizações a atingir as metas estabelecidas para os sítios que promovem e a maximizar as oportunidades emergentes da Web, explorando dados recolhidos, por inerência e de forma implícita, que, apesar de serem complexos e vastíssimos, constituem uma fonte extremamente rica e abrangente acerca do comportamento dos visitantes. No entanto, o desenvolvimento e a aplicação desses processos de mineração de dados são actividades que se revestem de grande complexidade, especialmente para utilizadores sem experiência e conhecimentos profundos neste domínio. Uma forma de combater este desafio consiste em proporcionar ferramentas consentâneas, capazes de assistirem os utilizadores na condução desses processos, procurando, deste modo, contribuir para a simplificação e acréscimo dos níveis de eficácia e de produtividade destas iniciativas. A estratégia defendida, para este efeito, desenrola-se em torno da gestão e reutilização, ao nível da organização, do conhecimento adquirido a partir da experiência prática, referente à resolução de problemas concretos que facultaram, no passado, processos bem sucedidos de mineração de dados de clickstream. O âmbito organizacional de tal estratégia visa, principalmente, fomentar um uso sinergético de recursos da organização, integrando os contributos de vários colaboradores e colocando as potencialidades deste tipo de mineração ao alcance e ao serviço de todos os seus membros, inclusive dos utilizadores mais inexperientes. O trabalho apresentado nesta dissertação descreve um sistema fundamentado no paradigma de raciocínio baseado em casos, o qual foi concebido com o propósito de assistir os utilizadores em duas formas primordiais: (i) captura, organização e armazenamento, num repositório de casos partilhado, do conhecimento acerca de exemplos úteis e bem sucedidos de processos de mineração de dados de clickstream; (ii) selecção dos planos de mineração alternativos e mais adequados, para solucionar um problema específico de análise de dados neste âmbito, dada uma descrição de alto nível desse mesmo problema. O sistema proposto foi implementado através de uma aplicação Web protótipo, a ser explorada ao nível da organização, consolidando o conhecimento respeitante a exemplos de exercícios de mineração de utilização da Web, numa base de casos centralizada. O sistema integra e retira benefícios de recursos relacionados da organização, suportando uma abordagem semi-automática de aquisição de conhecimento, a partir dos seguintes tipos de origens: fontes de dados da organização; documentos normalizados em formato PMML, produzidos por ferramentas de extracção de conhecimento e representativos de actividades de mineração concretizadas; informação complementar, obtida por meio de interacção com o utilizador. No apoio à resolução de problemas, o sistema actua a partir de um conjunto de requisitos da análise e de características dos dados de clickstream disponíveis, e, com base no conhecimento relativo à aplicação de métodos de mineração e de outras operações, sugere planos de mineração alternativos e apropriados para os dados em causa e para o fim a que a análise se destina. Tais planos são apresentados ao utilizador através de descrições gerais, acompanhadas por informação suplementar e por referências para detalhes explicativos da sua implementação pragmática. Discovering knowledge from clickstream data, related to the interaction of individuals with Web sites, is playing an increasingly important role, reaching a growing number of decision makers across the organization. The intention behind this is helping organizations to achieve the goals of the promoted sites and to maximize the latent opportunities of the Web, exploring data inherently and implicitly collected, which are huge and complex, yet a very rich and comprehensive source of visitants’ behavior insights. However, developing and applying such mining processes are very complex tasks, especially to users without deep knowledge and experience in this domain. One way to tackle this challenge is by building tools, capable of assisting users within such processes realization, in order to simplify these initiatives and to increase theirs efficacy and productivity levels. The defended strategy regarding such assistance relies on managing and reusing, at corporative level, the knowledge acquired from the practical experience in solving concrete problems, which had provided successful clickstream data mining processes in the past. This corporative-wide perspective mostly aims at favoring an synergetic use of the organization resources, bringing up together the contributions of distinct collaborators and making available the potentialities of this kind of mining to all members, including the inexperienced users. The work presented in this dissertation describes a system founded on the case based reasoning paradigm. This system was devised with the purpose of assisting users in two main ways: capturing, organizing and storing, on a shared case repository, the knowledge about successful and useful clickstream data mining processes; selecting the most suited and alternative mining plans, to solve a specific clickstream data analysis problem, given an high level description of such problem. The proposed system was implemented as a prototype Web-based application, to be explored at corporate level, consolidating the knowledge about Web usage mining processes examples on a centralized case base. The system integrates and takes advantage from related corporative resources, supporting a knowledge acquisition semi-automated approach from the following types of origins: corporative data sources; standard documents in PMML format, supplied by knowledge extraction tools and representing the mining activities accomplished; complementary information, obtained through user interaction. When advising problem solving, the system acts, taking the characteristics of the available clickstream data and the analysis requirements, and based on the acquired knowledge about applying data mining and other operations, suggests the most appropriate alternative mining plans to the data and the analysis at hands. The plans are deployed as overviews, complemented by additional information and by links to practical implementation details.
Tipo:	Tese de doutoramento
Descrição:	Tese de Doutoramento em Informática - Especialidade de Inteligência Artificial
URI:	https://hdl.handle.net/1822/6533
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Teses de Doutoramento

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
Tese_final_Ana Lacerda.pdf		1,87 MB	Adobe PDF	Ver/Abrir

Ver registo completo Sugerir correção Estatísticas