Publicação de dados de pesquisa científica: proposta de estruturação semântica de cadernos abertos de pesquisa frente às dimensões da e-Science

Carregando...
Imagem de Miniatura

Data

2020-09-18

Autores

Silva, Luciana Candida da [UNESP]

Título da Revista

ISSN da Revista

Título de Volume

Editor

Universidade Estadual Paulista (Unesp)

Resumo

Vivencia-se um período de mudanças nas práticas científicas, exigindo novas maneiras de gerar e comunicar a ciência. Essa nova maneira implica em disponibilizar dados de pesquisa científica gerados em laboratórios de pesquisa em tempo real, ou o mais próximo disso, em formatos abertos e estrutura adequada para permitir que sejam acessíveis, compartilháveis e reutilizáveis. Neste contexto, vislumbra-se na Web Semântica e no Linked Data conceitos e tecnologias que enfatizam a reutilização e a ligação de recursos ricamente descritos na Web. O objetivo geral desta tese é propor diretrizes semânticas para estruturação e publicação de dados abertos de cadernos de pesquisa, visando melhorias na qualidade da sua recuperação e compartilhamento em plataformas de acesso aberto. Nesse sentido, para realizar esse estudo, foram identificados os elementos conceituais e práticos presentes nas dimensões da e-Science, e apresentadas as características e as especificidades dos dados científicos anotados em cadernos de pesquisa. Na sequência, descreveu-se os conceitos e tecnologias da Web Semântica e Linked Data apropriadas para publicações desses dados em plataformas de acesso aberto. As diretrizes propostas nesta tese adotaram a etapa correspondente à formalização, estrutura, formatos e licenças de Santarem Segundo (2018). A metodologia seguiu os procedimentos tradicionais para delimitação do universo e amostragem da pesquisa, como sua classificação e coleta de dados; e, revisão sistemática de literatura para identificar trabalhos relacionados ao estado da arte dos cadernos abertos de pesquisa, no que se refere a sua estrutura e publicação para acesso e uso dos dados. Definiu-se que a pesquisa é de natureza qualitativa e finalidade aplicada; o método é bibliográfico, descritivo, exploratório, documental e de levantamento. Para a composição das diretrizes semânticas, identificou-se o ecossistema da pesquisa cientifica em torno do caderno de laboratório, realizou a modelagem dos dados a partir do modelo conceitual IFLA LRM, o mapeamento e a definição dos metadados apropriados ao contexto dos cadernos de pesquisa. Logo, os vocabulários selecionados foram descritos, bem como foram indicados os vocabulários para enriquecimento e as licenças de uso. Depois disso, analisou-se as correspondências entre os metadados e as propriedades dos vocabulários Schema.org, DC Terms, SKOS e RDA Element Sets. Em seguida foi construído o mapeamento das propriedades para relacionamentos de dados. Após o estudo das etapas, analisou-se os elementos quanto ao alcance dos Princípios FAIR e melhores práticas do W3C. Como resultado da pesquisa, estabeleceu-se um conjunto de diretrizes semânticas compostas de elementos e tecnologias que refletem a realidade de pesquisas laboratoriais e a descrição de experimentos com uma pluralidade de atributos, precisos e relevantes, os quais poderão proporcionar benefícios à comunidade cientifica com dados organizados, padronizados e disponíveis para o reuso. A aplicação devida dessas diretrizes, no que se refere à estruturação de dados, colabora para que os dados sejam encontráveis, acessíveis, interoperáveis e reutilizáveis.
We are in a period of changes in scientific practices requiring new ways to generate and communicate science. This new way implies making available scientific research data generated in research laboratories in real time, or the closest, in open formats and adequate structure to allow the data to be accessible, shareable and reusable. In this context, one sees in the Semantic Web and Linked Data concepts and technologies that emphasize the reuse and connection of resources richly described on the Web. The general objective of this thesis is to propose semantic guidelines for structuring and publishing open data from research notebooks, aiming to improve the quality of data recovery and sharing on open access platforms. For this, the conceptual and practical elements present in the e-Science dimensions were identified. It presented the characteristics and specificities of the scientific data noted in research notebooks. It then described the concepts and technologies of the Semantic Web and Linked Data appropriate for publishing these data on open access platforms. The guidelines proposed in this thesis adopted the stage corresponding to the formalization, structure, formats and licenses of Santarem Segundo (2018). The constructed methodology followed the traditional methodological procedures for delimiting the universe and sampling the research, classification of the research and data collection; and, systematic literature review to identify works related to the state of the art of open notebooks science with regard to their structure and publication for access and use of data. It was defined that the research is of a qualitative nature and applied purpose; the method is bibliographic, descriptive, exploratory, documentary and survey. For the composition of the semantic guidelines, the ecosystem of scientific research was identified around the laboratory notebook, performed data modeling based on the IFLA LRM conceptual model, mapped and defined the metadata appropriate to the context of the research notebooks. It then described the selected vocabularies, as well as indicated vocabularies for data enrichment and usage licenses. After that, it analyzed the correspondences between the metadata and the properties of the Schema.org, DC Terms, SKOS and RDA Element Sets vocabularies. The properties were then mapped to data relationships. After studying the steps, it analyzed the elements regarding the scope of the FAIR Principles and best practices of the W3C. As a result of the research, it established a set of semantic guidelines composed of elements and technologies that reflect the reality of laboratory research and the description of experiments with a plurality of attributes, precise and relevant, which may provide benefits to the scientific community with organized, standardized data and available for reuse. The proper application of these guidelines, in what concerns the structuring of data, collaborate so that the data are findable, accessible, interoperable and reusable.

Descrição

Palavras-chave

Dados de pesquisa científica, Cadernos abertos de pesquisa, Cadernos de laboratório, Linked Data, Web semântica, e-Science, Diretrizes semânticas, Scientific research data, Open notebook science, Laboratory notebooks, Semantic web, Semantic guidelines

Como citar