Heterogeneous data integration is an important persistent problem that has been often faced in different domains. It is highly challenging when the heterogeneous data are very numerous, fast evolving, from different and distributed sources, and need to be efficiently and comprehensively evaluated in order to answer complex queries, possibly in short time. Several approaches have been proposed to integrate data from multiple heterogeneous data sources, including information linkage, multi-databases, federated databases, mediator based solutions and data warehousing. The last one well supports applications where off-line processing of numerous data from various and dispersed sources is required, e.g. in order to comprehensively and efficiently mine the integrated data towards knowledge discovery. They leave open issues to solve, firstly, when the many heterogeneous data sources to be integrated are evolving in number, in type and (although limitedly and less rapidly) also in their data schema. Another difficulty is that such sources may be complementary, but also overlapping, in the information that they provide. All these aspects require performing the integration by means of a well-defined but simple methodology, which is easily configurable and rapidly adjustable, in order to be able to cope with the source changes and to combine the partially redundant information from the different sources. All these difficulties and requirements are typical in bioinformatics. Such complex scenario, which is not present in other less challenging domains, led us to choose the bioinformatics as the domain to test and demonstrate the efficacy and effectiveness of our research. Although bioinformatics is selected as test domain, by developing a domain independent abstracted and generalized data warehousing approach it can be straightforwardly customized and applied in all the other domains. By using such approach, the information can be not only easily integrated into the data warehouse, but also efficiently queried and retrieved from it. This is paramount, in particular in the bioinformatics field where many questions can be addressed only by comprehensively analyzing different types of data and available knowledge, in order to collect evidence supporting and increasing the confidence of obtained results. As an example, the identification of biomolecular phenomena involved in a specific biological condition requires the evaluation of several different structural, functional and phenotypic characteristics of numerous genes (i.e. their annotations) resulted differentially expressed in a high-throughput gene expression experiment testing that biological condition. Furthermore, by leveraging association data integrated with the proposed approach, using different techniques new data associations can be inferred, which may help scientists to orientate their research and experiments. In this Thesis, the above issues and challenges are addressed by focusing on the integration of controlled annotation data, expressed through different terminologies and ontologies, from different sources, which represent the different aspects of the available knowledge. In particular, we concentrated on integration of data sources which are evolving not only in number rapidly, but also in data content and structure, although more slowly. Another difficulty is also having high quality and provenance evident data in the integration process from the multiple sources. In order to meet these requirements, in our work we performed the following steps: 1) abstraction and generalization of the main features represented by the data to be integrated (e.g. biomolecular entities and biomedical-molecular features) and their associations; 2) design of a modular global data schema according to such abstraction and generalization; 3) design of a multi-level data architecture (including import, aggregation and integration levels) and the metadata that describe it and the imported data integrated; 4) design and implementation of provenance recording and consistency checking of imported data, in order to ensure high quality of integrated data; and 5) development of a software framework for the automatic creation of a data warehouse implementing the designed global data schema, architecture, provenance tracking and quality checking. For the integrated data, we defined a multi-level modular global data schema, which is composed of multiple layers (for imported, aggregated and integrated data, respectively) and interconnected modules. Each module represents a single feature or topic, with data provided by one or more of the integrated data sources and containing provenance information for each single feature instance. In the case of biomolecular annotation data, which we focused on, a feature can be defined within two main group: biomolecular entity (i.e. DNA sequence, gene, transcript, protein), or biomedical feature (e.g. pathway, genetic disorder, etc.). The biomedical features of biomolecular entities are described as a multiple association of the latter ones with the former ones, i.e. through their annotations. These modules are defined in the multi-level abstracted data schema. Although our global data schema may seem rather complex, it is automatically created by our developed software framework according to the content of a well-defined XML configuration file, which describes the data features and sources to be imported and integrated. On the basis of such XML file, also several metadata are generated and stored in the data warehouse; they define the structure and elements of the created data warehouse (i.e. the included features and their associations and characteristics), which vary depending on the imported data. In the developed software framework, we included general data loading and updating procedures that work guided by the content of the XML configuration file, so as to ease their adaptation to structural modifications of previously integrated data as well as to the integration of new data types and sources. Furthermore, the framework also supports full data provenance tracking, integrated data quality checking, data merge and redundancy removal procedures. By using the developed framework, we created a high quality data warehouse of numerous genomic and proteomic annotations, which we leveraged in several different projects and applications, including the detection of new annotations based on the integrated biomolecular entities and biomedical features; towards this goal, we applied the transitive relationship method on the integrated genes, their encoded proteins and the protein features in order to detect missing new gene annotations. Although this method may seem simple, it is very effective and used already in other domains, but it has not been previously applied to integrated annotation data in the biomolecular field. By combining data from multiple sources and their cross database identification information, we increase our method’s expressive power and the quality of our detected annotations. Using our method, we detected new annotations and filled annotations missing in the integrated data sources; evaluation of the obtained results demonstrated that this approach can correctly detect with good precision not only annotations that are already present in some databases on which the transitive relationship approach is not based, but also new valuable annotations not yet included in any database. To ease accessing, querying and extracting the many valuable data integrated in the created data warehouse, we developed several different interfaces. The data warehouse is publicly accessible through a basic and a more advanced web interface at http: //www.bioinformatics.deib.polimi.it/GPKB/; furthermore, we created a Web Service interface to the data warehouse (http://www.bioinformatics. deib.polimi.it/GPKB-REST-client/), in order to make it easy accessible also programmatically and support its integration with other systems and data sources containing different types of data, thus supporting both answering complex biomedi- cal questions and knowledge discovery. Towards these goals, the web service access to the data warehouse within different projects is leveraged, including the Bio-Search Computing (Bio-SeCo – http://www.bioinformatics.deib.polimi.it/bio-seco/seco/) and Drug Repurposing ones. In the latter one, we performed a mediator based integration of the web service to access our data warehouse and the web service to access the Semantic MEDLINE Database (SemMedDB – http: //skr3.nlm.nih.gov/SemMedDB/) of the US National Library of Medicine. SemMedDB is a repository of semantic predications (subject-predicate-object triples) that are extracted from the very numerous publication abstracts included in PubMed (http://www.pubmed.org/) by using natural language processing methods. The integration of the two resources allowed supporting queries aimed at drug repurposing, potential discoveries or hypothesis formulation by using different concepts, in other words a drug may be determined to treat a disease other than the one for which it was intended. As shown by the obtained results, the integration techniques and the data warehouse developed in this Thesis are very effective and useful to integrate numerous, heterogeneous, evolving, overlapping and partially incomplete data, such as the biomolecular annotations; they also both allow detecting and completing missing association data and support answering complex questions, such as those typical of the biomedical domain. The created data warehouse is used as source for different applications through multiple interfaces; so far, its web site received more than 50,000 visits from October 2012 to November 2015. By using it scientists can extract the complete integrated data and the new annotations detected by transitive relationship, leveraging them in their researches.

L’integrazione di dati eterogenei è un problema che è spesso stato affrontato in vari domini applicativi. Il problema è particolarmente arduo quando i dati sono molto numerosi e provengono da sorgenti diverse e distribuite, evolvono rapidamente ed è necessario processarli globalmente ed efficientemente per poter rispondere ad interrogazioni complesse, possibilmente in poco tempo. Vari approcci sono stati proposti per la integrazione di dati provenienti da multiple sorgenti eterogenee, inclusi: information linkage, multi-databases, database federati, approcci mediator-based e data warehousing. In particolare, il data warehousing è indicato in applicazioni dove è richiesto il procedimento offline di grandi quantità di dati da sorgenti distinte e distribuite, ad esempio per l’inferenza di nuova conoscenza da collezioni integrate di dati. Tuttavia, alcuni aspetti rimangono irrisolti, in particolare nei casi in cui le molte sorgenti di dati integrate evolvono in numero, tipologia e (seppur limitatamente e lentamente) struttura della informazione. Una altra importante problematica è che tali sorgenti di dati possono essere complementari ma anche sovrapposte per quanto riguarda l’informazione che forniscono. Questi aspetti, richiedono che l’integrazione avvenga per mezzo di metodologie semplici e ben definite, che siano facili da configurare e rapide da modificare, al fine di poter reagire a cambiamenti delle sorgenti dati e di poter integrare dati parzialmente ridondanti. Queste difficoltà e questi requisiti sono ordinari nel campo della bioinformatica; uno scenario così articolato, che non è presente in altri domini meno complessi, ci ha spinti ad adottare la bioinformatica come dominio applicativo per testare e dimostrare l’efficacia e l’utilità del nostro argomento di ricerca. Nonostante questa scelta, abbiamo sviluppato un sistema per il data warehousing astratto e generale, che può essere facilmente configurato per applicazioni in altri domini. Nell’approccio proposto, l’informazione non solo può essere facilmente integrata all’interno del data warehouse, ma anche recuperata ed elaborata efficientemente. Questo è fondamentale specialmente nella bioinformatica, dove molte domande possono trovare risposta solo dalla analisi complessiva ed esauriente di diversi tipi di dato, al fine di accumulare prove a conferma dei risultati ottenuti. Ad esempio, l’identificazione dei fenomeni biomolecolari coinvolti in una specifica condizione biologica richiede di valutare varie caratteristiche strutturali, funzionali e fenotipiche associate ai numerosi geni (ovvero, le loro annotazioni) che risultano differentemente espressi in un esperimento high-throughput eseguito in tale condizione. Inoltre, sfruttando l’integrazione di diverse informazioni come proposto dal nostro approccio, è possibile usare diversi metodi e tecniche per inferire nuova conoscenza che può essere usate per guidare i biologi nella loro ricerca. In questa Tesi, i problemi menzionati, sono stati affrontati concentrandosi sulla integrazione di annotazioni controllate da diverse sorgenti, espresse tramite l’utilizzo di diverse terminologie ed ontologia, che descrivono i vari aspetti della conoscenza biologica. In particolare ci siamo focalizzati sulla integrazione di sorgenti che evolvono rapidamente in termini di quantità di informazione contenuta ma anche, seppur più lentamente, nella struttura dei dati forniti. Una ulteriore difficoltà è stata garantire elevata qualità e monitoraggio della provenienza dei dati nel processo di integrazione di multiple sorgenti. Al fine di soddisfare questi requisiti, nel nostro progetto abbiamo svolto i seguenti passi: 1) astrazione e generalizzazione dei molti aspetti aspetti dei dati da integrare (e.g. biomolecular entities e biomedical-molecular features) e delle loro relazioni; 2) progettazione di uno schema di dati globale e onnicomprensivo basato su tale astrazione; 3) progettazione di una architettura multi-livello, che includesse i livelli di importazione, aggregazione ed integrazione, e la definizione dei metadati per descrivere la architettura e i dati importati da integrare; 4) progettazione ed implementazione di metodologie per il monitoraggio della provenienza e della consistenza dei dati importati, in modo da poterne garantire la qualità; e 5) sviluppo di una piattaforma software per la generazione automatica di un data warehouse che implementi lo schema e l’architettura definiti, il monitoraggio della provenienza e il controllo di qualità. Per i dati integrati, abbiamo definito uno schema globale modulare e multi livello, composto da diversi strati (per dati importati, aggregati e integrati, rispettivamente) e moduli interconnessi. Ogni modulo rappresenta una singola entità e per ogni istanza di tale entità, contiene i dati forniti da una o più sorgenti assieme alle informazioni di provenienza. Nel caso delle annotazioni biomolecolari, su cui ci siamo concentrati, ogni entità può essere formalizzata come una delle due seguenti classi: biomolecular entity (ovvero, sequence di DNA, geni, trascritti, proteine) o biomedical feature (ad esempio, pathway, malattia genetica, etc.). Le caratteristiche biomediche (biomedical feature) di una certa entità biomolecolare (biomolecular entity) sono rappresentate come associazioni, ovvero annotazioni. I moduli sono definiti in uno schema di dati astratto e multi-livello; nonostante tale schema posso apparire piuttosto complesso, esso è generato automaticamente dal nostro software, sulla base di specifiche codificare in un opportuno documento XML, che descrive le caratteristiche dei dati e delle sorgenti da importare ed integrare. Sulla base di tale documento, vengono generati e memorizzati anche numerosi metadati; questi metadati definiscono la struttura e gli elementi del data warehouse creato (ovvero, le entità incluse e le loro associazioni e caratteristiche). Nel software sviluppato, abbiamo incluso procedure generali per il recupero e lo aggiornamento dei dati; queste procedure sono guidate da configurazioni contenute nel documento XML, in modo da potersi facilmente adattare a cambiamenti dei dati importati e da permettere una veloce inclusione di nuove sorgenti di dati. Inoltre la piattaforma supporta il monitoraggio della provenienza, il controllo della qualità dei dati integrati e la rimozione dei duplicati. Usando il software sviluppato, abbiamo creato un data warehouse che integra dati di alta qualità provenienti da numerose banche dati di annotazioni genomiche e proteomiche, che abbiamo sfruttato per molti diversi progetti ed applicazioni. Una di queste applicazioni è stata la identificazione di nuove annotazioni mediante l’uso della relazione transitiva tra i geni integrati, le proteine da essi codificate e le caratteristiche associate alle proteine, in modo da inferire nuove annotazioni per i geni considerati. Sebbene questo metodo possa sembrare molto semplice, risulta essere molto efficace ed è già in uso per altri domini, ma non è stato mai applicato precedentemente nel campo delle annotazioni biomolecolari. Con il nostro metodo, siamo stati in grado di identificare annotazioni non presenti nelle sorgenti dati integrate; la valutazione dei risultati ottenuti, ha dimostrato che mediante il nostro approccio è possibile inferire con buona precisione nuove annotazioni, non ancora incluse in alcune database. Per facilitare la fruizione e dell’informazione contenuta nel data warehouse creato, abbiamo sviluppato diverse interfacce. Il data warehouse è accessibile attraverso una applicazione web basilare e una più avanzata, pubblicamente disponibili all’indirizzo: //www.bioinformatics.deib.polimi.it/GPKB/; inoltre abbiamo creato una interfaccia basta su Web Service (http://www.bioinformatics. deib.polimi.it/GPKB-REST-client/), in modo da rendere facile anche l’accesso programmatico, l’integrazione con altri sistemi e lo sviluppo di strumenti per rispondere a domande complesse e inferire nuova conoscenza. Attualmente diversi progetti accedono al data warehouse, inclusi Bio-Search Computing (Bio-SeCo – http://www.bioinformatics.deib.polimi.it/bio-seco/seco/) e progetti per il riposizionamento di farmaci; in particolare, in questo ultimo caso, abbiamo sviluppato una soluzione mediator-based per l’integrazione dei web services per l’accesso al nostro data warehouse e quelli per l’accesso al Semantic MEDLINE Database (SemMedDB – http: //skr3.nlm.nih.gov/SemMedDB/) dello US National Library of Medicine. SemMedDB è un repository di predicati semantici (triple soggetto-verbo-oggetto) estratte dagli abstract di numerose pubblicazioni in PubMed (http://www.pubmed.org/) attraverso metodi per l’elaborazione del linguaggio naturale. L’integrazione di questi due strumenti ha permesso di supportare la valutazione di query per il riposizionamenti di farmaci, ovvero è possibile scoprire che una farmaco può essere usato per il trattamento di una patologia diversa da quella per cui era stato progettato. Come mostrato dai risultati ottenuti, la tecniche di integrazione ed il data warehouse sviluppati in questo lavoro di Tesi sono molto efficaci ed utili per l’integrazione di diverse sorgenti di dati potenzialmente eterogenee tra di loro, in rapida evoluzione e contenenti dati incompleti e parzialmente sovrapposti, come le annotazioni biomolecolari; inoltre permettono di identificare nuove associazioni tra i dati e di supportare la valutazione di interrogazioni complesse, come appunto quelle tipiche del dominio biomedico. Il data warehouse creato è stato utilizzato per la creazione di molte applicazioni, attraverso molteplici interfacce; attualmente, la sua pagina web ha ricevuto pi di 50,000 visite nel periodo da Ottobre 2012 a Novembre 2015. Usando il data warehouse, scienziati e biologi possono estrarre dati integrati e nuove annotazioni identificate tramite relazione transitiva e sfruttare questa informazione per la loro ricerca.

Modular schema based data warehousing of evolving, redundant and incomplete data: application to biomolecular knowledge data integration and inference

CANAKOGLU, ARIF

Abstract

Heterogeneous data integration is an important persistent problem that has been often faced in different domains. It is highly challenging when the heterogeneous data are very numerous, fast evolving, from different and distributed sources, and need to be efficiently and comprehensively evaluated in order to answer complex queries, possibly in short time. Several approaches have been proposed to integrate data from multiple heterogeneous data sources, including information linkage, multi-databases, federated databases, mediator based solutions and data warehousing. The last one well supports applications where off-line processing of numerous data from various and dispersed sources is required, e.g. in order to comprehensively and efficiently mine the integrated data towards knowledge discovery. They leave open issues to solve, firstly, when the many heterogeneous data sources to be integrated are evolving in number, in type and (although limitedly and less rapidly) also in their data schema. Another difficulty is that such sources may be complementary, but also overlapping, in the information that they provide. All these aspects require performing the integration by means of a well-defined but simple methodology, which is easily configurable and rapidly adjustable, in order to be able to cope with the source changes and to combine the partially redundant information from the different sources. All these difficulties and requirements are typical in bioinformatics. Such complex scenario, which is not present in other less challenging domains, led us to choose the bioinformatics as the domain to test and demonstrate the efficacy and effectiveness of our research. Although bioinformatics is selected as test domain, by developing a domain independent abstracted and generalized data warehousing approach it can be straightforwardly customized and applied in all the other domains. By using such approach, the information can be not only easily integrated into the data warehouse, but also efficiently queried and retrieved from it. This is paramount, in particular in the bioinformatics field where many questions can be addressed only by comprehensively analyzing different types of data and available knowledge, in order to collect evidence supporting and increasing the confidence of obtained results. As an example, the identification of biomolecular phenomena involved in a specific biological condition requires the evaluation of several different structural, functional and phenotypic characteristics of numerous genes (i.e. their annotations) resulted differentially expressed in a high-throughput gene expression experiment testing that biological condition. Furthermore, by leveraging association data integrated with the proposed approach, using different techniques new data associations can be inferred, which may help scientists to orientate their research and experiments. In this Thesis, the above issues and challenges are addressed by focusing on the integration of controlled annotation data, expressed through different terminologies and ontologies, from different sources, which represent the different aspects of the available knowledge. In particular, we concentrated on integration of data sources which are evolving not only in number rapidly, but also in data content and structure, although more slowly. Another difficulty is also having high quality and provenance evident data in the integration process from the multiple sources. In order to meet these requirements, in our work we performed the following steps: 1) abstraction and generalization of the main features represented by the data to be integrated (e.g. biomolecular entities and biomedical-molecular features) and their associations; 2) design of a modular global data schema according to such abstraction and generalization; 3) design of a multi-level data architecture (including import, aggregation and integration levels) and the metadata that describe it and the imported data integrated; 4) design and implementation of provenance recording and consistency checking of imported data, in order to ensure high quality of integrated data; and 5) development of a software framework for the automatic creation of a data warehouse implementing the designed global data schema, architecture, provenance tracking and quality checking. For the integrated data, we defined a multi-level modular global data schema, which is composed of multiple layers (for imported, aggregated and integrated data, respectively) and interconnected modules. Each module represents a single feature or topic, with data provided by one or more of the integrated data sources and containing provenance information for each single feature instance. In the case of biomolecular annotation data, which we focused on, a feature can be defined within two main group: biomolecular entity (i.e. DNA sequence, gene, transcript, protein), or biomedical feature (e.g. pathway, genetic disorder, etc.). The biomedical features of biomolecular entities are described as a multiple association of the latter ones with the former ones, i.e. through their annotations. These modules are defined in the multi-level abstracted data schema. Although our global data schema may seem rather complex, it is automatically created by our developed software framework according to the content of a well-defined XML configuration file, which describes the data features and sources to be imported and integrated. On the basis of such XML file, also several metadata are generated and stored in the data warehouse; they define the structure and elements of the created data warehouse (i.e. the included features and their associations and characteristics), which vary depending on the imported data. In the developed software framework, we included general data loading and updating procedures that work guided by the content of the XML configuration file, so as to ease their adaptation to structural modifications of previously integrated data as well as to the integration of new data types and sources. Furthermore, the framework also supports full data provenance tracking, integrated data quality checking, data merge and redundancy removal procedures. By using the developed framework, we created a high quality data warehouse of numerous genomic and proteomic annotations, which we leveraged in several different projects and applications, including the detection of new annotations based on the integrated biomolecular entities and biomedical features; towards this goal, we applied the transitive relationship method on the integrated genes, their encoded proteins and the protein features in order to detect missing new gene annotations. Although this method may seem simple, it is very effective and used already in other domains, but it has not been previously applied to integrated annotation data in the biomolecular field. By combining data from multiple sources and their cross database identification information, we increase our method’s expressive power and the quality of our detected annotations. Using our method, we detected new annotations and filled annotations missing in the integrated data sources; evaluation of the obtained results demonstrated that this approach can correctly detect with good precision not only annotations that are already present in some databases on which the transitive relationship approach is not based, but also new valuable annotations not yet included in any database. To ease accessing, querying and extracting the many valuable data integrated in the created data warehouse, we developed several different interfaces. The data warehouse is publicly accessible through a basic and a more advanced web interface at http: //www.bioinformatics.deib.polimi.it/GPKB/; furthermore, we created a Web Service interface to the data warehouse (http://www.bioinformatics. deib.polimi.it/GPKB-REST-client/), in order to make it easy accessible also programmatically and support its integration with other systems and data sources containing different types of data, thus supporting both answering complex biomedi- cal questions and knowledge discovery. Towards these goals, the web service access to the data warehouse within different projects is leveraged, including the Bio-Search Computing (Bio-SeCo – http://www.bioinformatics.deib.polimi.it/bio-seco/seco/) and Drug Repurposing ones. In the latter one, we performed a mediator based integration of the web service to access our data warehouse and the web service to access the Semantic MEDLINE Database (SemMedDB – http: //skr3.nlm.nih.gov/SemMedDB/) of the US National Library of Medicine. SemMedDB is a repository of semantic predications (subject-predicate-object triples) that are extracted from the very numerous publication abstracts included in PubMed (http://www.pubmed.org/) by using natural language processing methods. The integration of the two resources allowed supporting queries aimed at drug repurposing, potential discoveries or hypothesis formulation by using different concepts, in other words a drug may be determined to treat a disease other than the one for which it was intended. As shown by the obtained results, the integration techniques and the data warehouse developed in this Thesis are very effective and useful to integrate numerous, heterogeneous, evolving, overlapping and partially incomplete data, such as the biomolecular annotations; they also both allow detecting and completing missing association data and support answering complex questions, such as those typical of the biomedical domain. The created data warehouse is used as source for different applications through multiple interfaces; so far, its web site received more than 50,000 visits from October 2012 to November 2015. By using it scientists can extract the complete integrated data and the new annotations detected by transitive relationship, leveraging them in their researches.
BONARINI, ANDREA
CERI, STEFANO
15-gen-2016
L’integrazione di dati eterogenei è un problema che è spesso stato affrontato in vari domini applicativi. Il problema è particolarmente arduo quando i dati sono molto numerosi e provengono da sorgenti diverse e distribuite, evolvono rapidamente ed è necessario processarli globalmente ed efficientemente per poter rispondere ad interrogazioni complesse, possibilmente in poco tempo. Vari approcci sono stati proposti per la integrazione di dati provenienti da multiple sorgenti eterogenee, inclusi: information linkage, multi-databases, database federati, approcci mediator-based e data warehousing. In particolare, il data warehousing è indicato in applicazioni dove è richiesto il procedimento offline di grandi quantità di dati da sorgenti distinte e distribuite, ad esempio per l’inferenza di nuova conoscenza da collezioni integrate di dati. Tuttavia, alcuni aspetti rimangono irrisolti, in particolare nei casi in cui le molte sorgenti di dati integrate evolvono in numero, tipologia e (seppur limitatamente e lentamente) struttura della informazione. Una altra importante problematica è che tali sorgenti di dati possono essere complementari ma anche sovrapposte per quanto riguarda l’informazione che forniscono. Questi aspetti, richiedono che l’integrazione avvenga per mezzo di metodologie semplici e ben definite, che siano facili da configurare e rapide da modificare, al fine di poter reagire a cambiamenti delle sorgenti dati e di poter integrare dati parzialmente ridondanti. Queste difficoltà e questi requisiti sono ordinari nel campo della bioinformatica; uno scenario così articolato, che non è presente in altri domini meno complessi, ci ha spinti ad adottare la bioinformatica come dominio applicativo per testare e dimostrare l’efficacia e l’utilità del nostro argomento di ricerca. Nonostante questa scelta, abbiamo sviluppato un sistema per il data warehousing astratto e generale, che può essere facilmente configurato per applicazioni in altri domini. Nell’approccio proposto, l’informazione non solo può essere facilmente integrata all’interno del data warehouse, ma anche recuperata ed elaborata efficientemente. Questo è fondamentale specialmente nella bioinformatica, dove molte domande possono trovare risposta solo dalla analisi complessiva ed esauriente di diversi tipi di dato, al fine di accumulare prove a conferma dei risultati ottenuti. Ad esempio, l’identificazione dei fenomeni biomolecolari coinvolti in una specifica condizione biologica richiede di valutare varie caratteristiche strutturali, funzionali e fenotipiche associate ai numerosi geni (ovvero, le loro annotazioni) che risultano differentemente espressi in un esperimento high-throughput eseguito in tale condizione. Inoltre, sfruttando l’integrazione di diverse informazioni come proposto dal nostro approccio, è possibile usare diversi metodi e tecniche per inferire nuova conoscenza che può essere usate per guidare i biologi nella loro ricerca. In questa Tesi, i problemi menzionati, sono stati affrontati concentrandosi sulla integrazione di annotazioni controllate da diverse sorgenti, espresse tramite l’utilizzo di diverse terminologie ed ontologia, che descrivono i vari aspetti della conoscenza biologica. In particolare ci siamo focalizzati sulla integrazione di sorgenti che evolvono rapidamente in termini di quantità di informazione contenuta ma anche, seppur più lentamente, nella struttura dei dati forniti. Una ulteriore difficoltà è stata garantire elevata qualità e monitoraggio della provenienza dei dati nel processo di integrazione di multiple sorgenti. Al fine di soddisfare questi requisiti, nel nostro progetto abbiamo svolto i seguenti passi: 1) astrazione e generalizzazione dei molti aspetti aspetti dei dati da integrare (e.g. biomolecular entities e biomedical-molecular features) e delle loro relazioni; 2) progettazione di uno schema di dati globale e onnicomprensivo basato su tale astrazione; 3) progettazione di una architettura multi-livello, che includesse i livelli di importazione, aggregazione ed integrazione, e la definizione dei metadati per descrivere la architettura e i dati importati da integrare; 4) progettazione ed implementazione di metodologie per il monitoraggio della provenienza e della consistenza dei dati importati, in modo da poterne garantire la qualità; e 5) sviluppo di una piattaforma software per la generazione automatica di un data warehouse che implementi lo schema e l’architettura definiti, il monitoraggio della provenienza e il controllo di qualità. Per i dati integrati, abbiamo definito uno schema globale modulare e multi livello, composto da diversi strati (per dati importati, aggregati e integrati, rispettivamente) e moduli interconnessi. Ogni modulo rappresenta una singola entità e per ogni istanza di tale entità, contiene i dati forniti da una o più sorgenti assieme alle informazioni di provenienza. Nel caso delle annotazioni biomolecolari, su cui ci siamo concentrati, ogni entità può essere formalizzata come una delle due seguenti classi: biomolecular entity (ovvero, sequence di DNA, geni, trascritti, proteine) o biomedical feature (ad esempio, pathway, malattia genetica, etc.). Le caratteristiche biomediche (biomedical feature) di una certa entità biomolecolare (biomolecular entity) sono rappresentate come associazioni, ovvero annotazioni. I moduli sono definiti in uno schema di dati astratto e multi-livello; nonostante tale schema posso apparire piuttosto complesso, esso è generato automaticamente dal nostro software, sulla base di specifiche codificare in un opportuno documento XML, che descrive le caratteristiche dei dati e delle sorgenti da importare ed integrare. Sulla base di tale documento, vengono generati e memorizzati anche numerosi metadati; questi metadati definiscono la struttura e gli elementi del data warehouse creato (ovvero, le entità incluse e le loro associazioni e caratteristiche). Nel software sviluppato, abbiamo incluso procedure generali per il recupero e lo aggiornamento dei dati; queste procedure sono guidate da configurazioni contenute nel documento XML, in modo da potersi facilmente adattare a cambiamenti dei dati importati e da permettere una veloce inclusione di nuove sorgenti di dati. Inoltre la piattaforma supporta il monitoraggio della provenienza, il controllo della qualità dei dati integrati e la rimozione dei duplicati. Usando il software sviluppato, abbiamo creato un data warehouse che integra dati di alta qualità provenienti da numerose banche dati di annotazioni genomiche e proteomiche, che abbiamo sfruttato per molti diversi progetti ed applicazioni. Una di queste applicazioni è stata la identificazione di nuove annotazioni mediante l’uso della relazione transitiva tra i geni integrati, le proteine da essi codificate e le caratteristiche associate alle proteine, in modo da inferire nuove annotazioni per i geni considerati. Sebbene questo metodo possa sembrare molto semplice, risulta essere molto efficace ed è già in uso per altri domini, ma non è stato mai applicato precedentemente nel campo delle annotazioni biomolecolari. Con il nostro metodo, siamo stati in grado di identificare annotazioni non presenti nelle sorgenti dati integrate; la valutazione dei risultati ottenuti, ha dimostrato che mediante il nostro approccio è possibile inferire con buona precisione nuove annotazioni, non ancora incluse in alcune database. Per facilitare la fruizione e dell’informazione contenuta nel data warehouse creato, abbiamo sviluppato diverse interfacce. Il data warehouse è accessibile attraverso una applicazione web basilare e una più avanzata, pubblicamente disponibili all’indirizzo: //www.bioinformatics.deib.polimi.it/GPKB/; inoltre abbiamo creato una interfaccia basta su Web Service (http://www.bioinformatics. deib.polimi.it/GPKB-REST-client/), in modo da rendere facile anche l’accesso programmatico, l’integrazione con altri sistemi e lo sviluppo di strumenti per rispondere a domande complesse e inferire nuova conoscenza. Attualmente diversi progetti accedono al data warehouse, inclusi Bio-Search Computing (Bio-SeCo – http://www.bioinformatics.deib.polimi.it/bio-seco/seco/) e progetti per il riposizionamento di farmaci; in particolare, in questo ultimo caso, abbiamo sviluppato una soluzione mediator-based per l’integrazione dei web services per l’accesso al nostro data warehouse e quelli per l’accesso al Semantic MEDLINE Database (SemMedDB – http: //skr3.nlm.nih.gov/SemMedDB/) dello US National Library of Medicine. SemMedDB è un repository di predicati semantici (triple soggetto-verbo-oggetto) estratte dagli abstract di numerose pubblicazioni in PubMed (http://www.pubmed.org/) attraverso metodi per l’elaborazione del linguaggio naturale. L’integrazione di questi due strumenti ha permesso di supportare la valutazione di query per il riposizionamenti di farmaci, ovvero è possibile scoprire che una farmaco può essere usato per il trattamento di una patologia diversa da quella per cui era stato progettato. Come mostrato dai risultati ottenuti, la tecniche di integrazione ed il data warehouse sviluppati in questo lavoro di Tesi sono molto efficaci ed utili per l’integrazione di diverse sorgenti di dati potenzialmente eterogenee tra di loro, in rapida evoluzione e contenenti dati incompleti e parzialmente sovrapposti, come le annotazioni biomolecolari; inoltre permettono di identificare nuove associazioni tra i dati e di supportare la valutazione di interrogazioni complesse, come appunto quelle tipiche del dominio biomedico. Il data warehouse creato è stato utilizzato per la creazione di molte applicazioni, attraverso molteplici interfacce; attualmente, la sua pagina web ha ricevuto pi di 50,000 visite nel periodo da Ottobre 2012 a Novembre 2015. Usando il data warehouse, scienziati e biologi possono estrarre dati integrati e nuove annotazioni identificate tramite relazione transitiva e sfruttare questa informazione per la loro ricerca.
Tesi di dottorato
File allegati
File Dimensione Formato  
thesis-poli-tesi.pdf

accessibile in internet per tutti

Descrizione: Thesis text
Dimensione 5.97 MB
Formato Adobe PDF
5.97 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/114643