Utilize este identificador para referenciar este registo: http://hdl.handle.net/10451/13872
Título: Shallow processing of portuguese: from sentence chunking to nominal lemmatization
Autor: Silva, João Ricardo Martins Ferreira da
Orientador: Branco, António H., 1963-
Palavras-chave: Segmentação de lexemas
Processamento superficial
Anotação morfossintáctica
Análise morfológica
Processamento de linguagem natural
Lematização
Segmentação de frases
Teses de mestrado - 2007
Data de Defesa: 2007
Resumo: Esta dissertação propõe um conjunto de procedimentos para o processamento computacional do Português. São cobertas cinco tarefas: Segmentação de Frases (Sentence Segmentation), Segmentação de Palavras (Tokenization), AnotaçãoMorfossintáctica (Part-of-Speech Tagging), Traçamento Nominal (Nominal Featurization) e Lematização Nominal (Nominal Lemmatization). Estas correspondem a alguns dos passos iniciais que produzem informação linguística, tal como categorias morfossintácticas ou lemas, informação esta que é importante para o processamento subsequente (e.g. análise sintáctica e semântica). Sigo uma abordagem baseada em processamento superficial (shallow processing), segundo a qual a informação linguística é associada ao texto com base em informação local (i.e. usando uma palavra ou, no máximo, uma janela muito limitada de contexto que inclui apenas algumas palavras). Começo por identificar e descrever as dificuldades encontradas em cada tarefa, com especial ênfase para aquelas que são específicas do Português. Após uma panorâmica das abordagens e ferramentas já existentes, descrevo soluções para os problemas que foram apontados previamente. São tambémcobertas as implementações destas soluções que, após avaliação, revelam quer um desempenho ao nível do estado da arte quer, em alguns casos, um avanço no estado da arte. O resultado desta dissertação é então tripartido: Uma descrição de alguns problemas chave encontrados no processamento superficial do Português, um conjunto de algoritmos e as respectivas implementações para a resolução desses problemas, juntamente com a sua avaliação.
This dissertation proposes a set of procedures for the computational processing of Portuguese. Five tasks are covered: Sentence Segmentation, Tokenization, Partof-Speech Tagging, Nominal Featurization and Nominal Lemmatization.These are some of the initial steps producing linguistic information — such as POS categories or lemmas — that is important to most subsequent processing (e.g. syntactic and semantic analysis).I follow a shallow processing approach, where linguistic information is associated to text based on local information (i.e. using the word itself or perhaps a limited window of context containing just a few words). I begin by identifying and describing the key problems raised by each task, with special focus on the problems that are specific to Portuguese. After an overview of existing approaches and tools, I describe the solutions I followed to the issues raised previously. I then report on my implementation of these solutions, which are found either to yield state-of-the-art performance or, in some cases, to advance the state-of-the-art. The major result of this dissertation is thus threefold: A description of the problems found in NLP of Portuguese, a set of algorithms and the corresponding tools to tackle those problems, together with their evaluation results.
Descrição: Tese de mestrado em Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2007
URI: http://hdl.handle.net/10451/13872
http://repositorio.ul.pt/handle/10455/3310
Aparece nas colecções:FC-DI - Master Thesis (dissertation)

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
JRS-Diss-MScjoãosilva.pdf1,03 MBAdobe PDFVer/Abrir    Acesso Restrito. Solicitar cópia ao autor!


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.