Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10400.21/385
Título: | Procura de padrões em documentos para extracção e classificação de informação |
Autor: | Ferreira, João Carlos Godinho |
Palavras-chave: | Classificação de documentos Taxonomias |
Data de Defesa: | Nov-2008 |
Resumo: | A limitada capacidade dos computadores em processar documentos de texto e consequente di culdade de extracção de informação desses documentos deve-se à dificuldade de processamento de informação não-estruturada. De modo a reduzir essa limitação é necessário aumentar a estrutura dos documentos com que os computadores trabalham. Este trabalho propõe um modelo de classificação de documentos através de um processo de refinamento sucessivo da informação. A cada iteração a informação presente no documento é melhor caracterizada através da aplicação de um classi cador apropriado. O processo de classificação recorre a informação estatística, usando o modelo de classificação de Bayes, sobre documentos ou fragmentos de documentos. O processo de classificação também recorre a técnicas para especificação de padrões de texto, usando expressões regulares para extrair informação que exibe um padrão conhecido. A informação obtida é armazenada em XML, que permite a interrogação de colecções de documentos de modo automático (recorrendo a bases de dados de suporte nativo XML). O XML também é usado para transformar a informação original noutros formatos, como por exemplo o HTML. Este formato pode ser usado para sintetizar a informação de modo melhorar a sua apresentação. |
Peer review: | yes |
URI: | http://hdl.handle.net/10400.21/385 |
Aparece nas colecções: | ISEL - Eng. Elect. Tel. Comp. - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Dissertação.pdf | 2,59 MB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.