PoS-tagging the Web in Portuguese. National varieties, text typologies and spelling systems

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/40029
Información del item - Informació de l'item - Item information
Título: PoS-tagging the Web in Portuguese. National varieties, text typologies and spelling systems
Título alternativo: Anotación morfosintáctica de la Web en portugués. Variedades nacionales, tipologías textuales y sistemas ortográficos
Autor/es: García González, Marcos | Gamallo Otero, Pablo | Gayo, Iria | Pousada Cruz, Miguel A.
Palabras clave: PoS-tagging | Portuguese | Web as Corpus | Spelling Agreement | Anotación morfosintáctica | Portugués | Acordo Ortográfico
Área/s de conocimiento: Lenguajes y Sistemas Informáticos
Fecha de publicación: sep-2014
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: Procesamiento del Lenguaje Natural. 2014, 53: 95-101
Resumen: The great amount of text produced every day in the Web turned it as one of the main sources for obtaining linguistic corpora, that are further analyzed with Natural Language Processing techniques. On a global scale, languages such as Portuguese - official in 9 countries - appear on the Web in several varieties, with lexical, morphological and syntactic (among others) differences. Besides, a unified spelling system for Portuguese has been recently approved, and its implementation process has already started in some countries. However, it will last several years, so different varieties and spelling systems coexist. Since PoS-taggers for Portuguese are specifically built for a particular variety, this work analyzes different training corpora and lexica combinations aimed at building a model with high-precision annotation in several varieties and spelling systems of this language. Moreover, this paper presents different dictionaries of the new orthography (Spelling Agreement) as well as a new freely available testing corpus, containing different varieties and textual typologies. | La gran cantidad de texto producido diariamente en la Web ha provocado que ésta sea utilizada como una de las principales fuentes para la obtención de corpus lingüísticos, posteriormente analizados utilizando técnicas de Procesamiento del Lenguaje Natural. En una escala global, idiomas como el portugués – oficial en 9 estados - aparecen en la Web en diferentes variedades, con diferencias léxicas, morfológicas y sintácticas, entre otras. A esto se suma la reciente aprobación de una ortografía unificada para las diferentes variedades del portugués, cuyo proceso de implementación ya ha comenzado en varios países, pero que se prolongará todavía durante varios años, conviviendo por lo tanto también diferentes ortografías. Una vez que los etiquetadores morfosintácticos existentes para el portugués están adaptados específicamente para una variedad nacional concreta, el presente trabajo analiza diferentes combinaciones de corpus de aprendizaje y de léxicos con el fin de obtener un modelo que mantenga una alta precisión de anotación en diferentes variedades y ortografías de esta lengua. Además, se presentan diferentes diccionarios adaptados a la nueva ortografía (Acordo Ortográfico de 1990) y un nuevo corpus de evaluación con diferentes variedades y tipologías textuales, disponibilizado libremente.
Patrocinador/es: This work has been supported by the HPCPLN project - Ref: EM13/041 (Galician Government) and by the Celtic - Ref: 2012-CE138 and Plastic - Ref: 2013-CE298 projects (Feder-Interconnecta).
URI: http://hdl.handle.net/10045/40029
ISSN: 1135-5948
Idioma: eng
Tipo: info:eu-repo/semantics/article
Revisión científica: si
Versión del editor: http://journal.sepln.org/sepln/ojs/ojs/index.php/pln
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 53 (2014)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_53_10.pdf738 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.