Please use this identifier to cite or link to this item: https://hdl.handle.net/10216/143034
Author(s): Camilla Oliveira da Silveira
Title: Entidades Em Documentos De Arquivo E Sua Expansão Com Fontes De Dados Ligados No Projeto EPISA
Issue Date: 2022-07-19
Abstract: The Portuguese National Archives (Arquivo Nacional da Torre do Tombo) is an example of an institution that maintains a collection of great relevance to the Portuguese national memory. It holds original documents from the 9th century to the present day, many already digitized and available to be searched by researchers and the general public. The archive has been adapting to embrace an open perspective in which archival data is linked to global information sources, following a worldwide trend of making information from cultural heritage repositories more accessible. This work analyzed a sample of 25 records from the Portuguese National Archives, chosen by archival specialists as representative of different fonds and description levels, to identify entities and properties and explore relationships with other non-archival resources. The goal is to provide additional information to the archival interfaces. After selecting the entities in the records, Wikidata, DBpedia and Europeana databases were chosen for data enrichment and linking. The analysis of the entities in the records provided hundreds of properties directly related to classes in the corresponding databases. A more significant set of properties was obtained by selecting properties that had more data entered into the databases for entities of the corresponding classes. These entities and properties were then subjected to tests using Wikidata Query Service, DBpedia SPARQL Explorer and the Europeana Virtuoso SPARQL Query Editor. The queries performed with the entities in Wikidata Query Service and DBpedia SPARQL Explorer only provided results for certain properties, since not all entities have data in the database. On the other hand, the properties tested proved to enable relevant data about the entities, providing additional information about the entities they are connected with. However, with Europeana the entity searches did not prove productive, and it was not possible to retrieve information about entity properties as performed in the previous databases. Europeana is a great aggregator of metadata, however its metadata is still in the process of being converted into linked open data. Finally, further studies on repositories are needed in order to investigate the feasibility of exploring the links between archival resources and information in large open archives. Keywords: archives, linked open data, semantic web
Description: O Arquivo Nacional da Torre do Tombo (ANTT) é um exemplo de instituição que mantém uma coleção de grande relevância para a memória nacional portuguesa. Nele estão guardados documentos originais que vão desde o século IX até os dias de hoje, muitos já digitalizados, podendo ser pesquisados tanto por investigadores como pela população em geral. O arquivo tem vindo a adaptar-se para abraçar uma perspectiva aberta em que os dados arquivísticos estão ligados a fontes de informação globais, seguindo uma tendência mundial de tornar a informação dos repositórios do património cultural mais acessível. Este trabalho analisou uma amostra de 25 registos do Arquivo Nacional da Torre do Tombo, escolhidos pelos especialistas em arquivo como representativos de diferentes grupos de fundos e níveis de descrição, para identificar entidades e propriedades e explorar relações com outros recursos não arquivísticos. O objetivo é fornecer informação adicional às interfaces de arquivo. Após a seleção das entidades dos registos, foram escolhidas as bases de dados da Wikidata, DBpedia e Europeana para o enriquecimento e ligação de dados. A análise das entidades nos registos permitiu identificar centenas de propriedades diretamente relacionadas com classes nas respectivas bases de dados. Um conjunto mais significativo de propriedades foi obtido através da seleção de propriedades para as quais existem mais dados nas bases de dados para entidades das classes correspondentes. Em seguida, essas entidades e propriedades foram submetidas a testes utilizando o Wikidata Query Service, o DBpedia SPARQL Explorer e o Virtuoso SPARQL Query Editor. As pesquisas realizadas com as entidades no Wikidata Query Service e no DBpedia SPARQL Explorer apenas forneceram resultados para determinadas propriedades, uma vez que nem todas as entidades possuem dados nas respetivas bases de dados. Por outro lado, as propriedades testadas provaram possibilitar dados relevantes sobre as entidades, fornecendo informação adicional sobre as entidades com as quais se relacionam. Com a Europeana as pesquisas com as entidades não se mostraram produtivas, não tendo sido possível recuperar informação sobre propriedades de entidades como realizado nas bases de dados anteriores. A Europeana é uma grande agregadora de metadados, porém esses metadados ainda se encontram em processo de conversão em dados abertos ligados. Por fim, mais estudos em repositórios se mostram necessários a fim de investigar a viabilidade de explorar as ligações entre os recursos de arquivo e a informação em grandes arquivos abertos.
Subject: Ciências da comunicação
Media and communications
Scientific areas: Ciências sociais::Ciências da comunicação
Social sciences::Media and communications
TID identifier: 203164105
URI: https://hdl.handle.net/10216/143034
Document Type: Dissertação
Rights: openAccess
Appears in Collections:FEUP - Dissertação

Files in This Item:
File Description SizeFormat 
573343.pdfENTIDADES EM DOCUMENTOS DE ARQUIVO E SUA EXPANSÃO COM FONTES DE DADOS LIGADOS NO PROJETO EPISA1.95 MBAdobe PDFThumbnail
View/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.