Genes are the most important and essential molecular units of a living organism, and the knowledge of their functions is a crucial key in the understanding of physiological and pathological biological processes, and in the development of new drugs and therapies. This association between a gene and its function has been named as "biomolecular annotation". Unfortunately, the discovery of new annotations is often time-consuming and expensive, because so are biological "in vitro" experiments carried out by physicians and biologists. Rapid advances in high-throughput technology have been making many new gene functions available online in public databases and data banks. Despite their undeniable importance, these data sources cannot be considered neither complete nor totally accurate, because annotations are not always revised before their publication, sometimes include erroneous information, beside being incomplete by definition. In this scenario, computational methods that are able to quicken the curation process of such data are very important. This has motivated the development of computational algorithms and software that utilize the available genomics information for gene function prediction, able to provide prioritized lists of biomolecular annotations to the biologists, in order to orientate their future research and experiments. With this thesis, we first face the problem of predicting novel gene functions (or biomolecular annotations) through different computational machine learning methods, in which we take advantage of the properties of co-occurrences of annotations to suggest new likely gene functions. We propose some computational methods, implemented in an integrated framework, able to produce prioritized lists of predicted annotations, sorted on the basis of their likelihood. Particularly, we enhance an annotation prediction method already available in the literature, and then developed two variants of it, based on gene clustering and term-term similarity weight. In addition, we also deal with the issue of the validation of the predicted annotations. Scientists keep adding new data and information to the annotation data banks as long as they discover new gene functions, and sometimes these data are erroneous or inaccurate. In addition, new discoveries are made every day, and the available information cannot be considered definitive. For these reasons, such databases are always incomplete. This leads to a significant problem of "validation", because we do not have a true "gold standard" to refer. So, we designed and developed different validation procedures able to check the quality of our predictions. We introduce a validation phase consisting into a Receiver Operating Characteristic (ROC) analysis, a search for the predicted annotations into a new updated database version, and eventually an analysis of the available knowledge in the literature and through some available web tools. To better understand the variation of the output predicted lists of annotations, we design and develop new measures, based on the Spearman coefficient and the Kendall distance. Such measures are able to state the level between two lists by analyzing the difference between positions of the same element in two lists, and by evaluating the number of element couples having contrary order in the two lists. These measures demonstrated to be able to show important patterns otherwise difficult to notice. Finally, we provide a visualization and statistical tool able to state the novelty of the predicted gene annotations, denoted as "novelty indicator". For each gene, this tool is able to depict the tree graph of the predicted ontological annotation terms, producing images easily understandable also by non-experts, and also a statistical value that states the level of "novelty" of the prediction. Our tests and experiments confirmed the efficiency and the effectiveness of our algorithms, by retrieving manifold predicted annotations as confirmed in the updated database or in the literature. The similarity measures resulted very useful to understand the similarity of our predicted lists, making us able to see specific similarity patterns while key parameters vary. The "novelty indicator", eventually, resulted very useful in producing tree graphs able to make our lists of predicted biomolecular annotations clearly usable by biologists and scientists. We believe that the tools presented within this thesis may be very useful to the bioinformatics and scientific community to address future research experiments about gene functions.

I geni sono le unita' essenziali e piu' importanti d'un organismo vivente, e la conoscenza delle loro funzioni e' un punto centrale nella comprensione dei processi biologici fisiologici e patologici, nonche' nello sviluppo di nuovi farmaci e terapie. Nella comunita' biologica e scientifica, le assocazioni di questo tipo tra un gene ed una funzione sono state recentemente denominate \{annotazioni biomolecolari". Purtroppo, la scoperta di nuove annotazioni e' spesso un'operazione lunga e costosa, perche' lunghi e costosi sono gli esperimenti biologici "in vitro" eseguiti da medici e biologi. I rapidi avanzamenti nelle tecnologie d'analisi dei dati del genoma hanno reso molte funzioni geniche disponibili online in pubbliche basi di dati e banche dati. Nonostante la loro innegabile importanza, queste sorgenti di dati non possono essere considerate ne' complete ne' del tutto accurate, perche' le annotazioni non sono sempre riviste prima della pubblicazione, ed a volte includono informazioni errate, oltre ad essere incomplete per definizione. In questo scenario, metodi computazioni in grado d'accelerare il processo di mantenimento di queste banche dati sono davvero importanti. Questo ha motivato lo sviluppo di algoritmi computazionali e software che utilizzano le informazioni genomiche disponibili per fare predizioni di funzioni geniche, in grado di fornire liste ordinate per priorita' d'annotazioni biomolecolari ai biologi, per orientare la loro ricerca ed i loro futuri esperimenti. Con questa tesi, prima affrontiamo il problema della predizione di nuove funzioni geniche (o "annotazioni biomolecolari") attraverso diversi metodi d'apprendimento automatico ("machine learning"), nei quali sfruttiamo le proprieta' statistiche delle co-occorrenze tra annotazioni per suggerire l'esistenza di nuove probabili funzioni geniche. Proponiamo alcuni metodi computazionali, implementati in un software integrato, in grado di generare liste d'annotazioni predette, ordinate sulla base delle loro probabilita'. In particolare, proponiamo un miglioramento d'un metodo di predizione d'annotazioni gia' presente in letteratura, e ne sviluppiamo poi due varianti, basate sul raggruppamento ("clustering") di geni e sull'inserimemnto di pesi di similarita' tra termini. Inoltre, affrontiamo la questione cruciale della validazione delle annotazioni predette. Dato che gli scienziati, mentre scoprono nuove annotazioni, continuano ad aggiungere nuovi dati ed informazioni (a volte errati o non accurati) alle banche dati tutti i giorni, queste basi di dati risultano incomplete per definizione. Questo porta ad un significativo problema di validazione, perche' chi predice computazionalmente nuove annotazioni non ha un vero "gold standard" a cui riferirci, con cui confrontare i propri risultati. Percio' abbiamo progettato e sviluppato diverse procedure di validazione in grado di controllare la qualita' delle nostre predizioni: nella tesi introduciamo una fase di validazione che consiste nell'analisi delle curve "Receiver Operating Characteristic (ROC)", nella ricerca delle annotazioni predette un una versione aggiornata della base di dati, ed infine nell'analisi della conoscenza disponibile in letteratura e tramite alcuni strumenti web. Per comprendere meglio la variazione delle liste d'annotazioni predette generate in output, abbiamo progettato e sviluppato due nuove misure, basate sul coefficiente di Spearman e sulla distanza di Kendall. Questi coefficienti sono in grado d'esprimere il livello di similarita' tra due liste analizzando il numero di coppie d'elementi che hanno diverso ordine nelle due liste. Le due misure introdotte hanno dimostrato d'essere in grado d'evidenziare interessanti andamenti e correlazioni altrimenti difficili da osservare. Infine, forniamo un strumento statistico e di visualizzazione in grado d'esprimere il livello di "novita'" delle predizioni d'annotazioni fatte per i geni, chiamato "novelty indicator". Per ogni gene, questo strumento e' in grado di disegnare un grafo ad albero dei termini predetti, producendo immagini facilmente comprensibili anche dai non-esperti, insieme ad un valore statistico che esprime il livello di novita' della predizione. I nostri test ed esperimenti hanno confermato l'efficienza e l'efficacia dei nostri algoritmi, ritrovando molte annotazioni predette come confermate nel database aggiornato o in letteratura. Le misure di correlazione sono risultate molto utili nel capire il livello di similarita' tra le nostre liste di predizione, permettendoci d'osservare specifici andamenti di similairta' quando alcuni parametri-chiave variano. L'indicatore di novita', infine, e' risultato molto utile nel generare grafi ad albero ed immagini in grado di rendere le nostre liste d'annotazioni biomolecolari usabili facilmente da biologi e scienziati Crediamo che gli strumenti presetati all'interno di questa tesi possano essere molto utili per la comunita' bioinformatica e scientifica, per meglio indirizzare futuri esperimenti sulle funzioni geniche, e permettere cosi' nuove scoperte o aprire nuove strade nella comprensione della biologia.

Computational Prediction of Gene Functions through Machine Learning methods and Multiple Validation Procedures

CHICCO, DAVIDE

Abstract

Genes are the most important and essential molecular units of a living organism, and the knowledge of their functions is a crucial key in the understanding of physiological and pathological biological processes, and in the development of new drugs and therapies. This association between a gene and its function has been named as "biomolecular annotation". Unfortunately, the discovery of new annotations is often time-consuming and expensive, because so are biological "in vitro" experiments carried out by physicians and biologists. Rapid advances in high-throughput technology have been making many new gene functions available online in public databases and data banks. Despite their undeniable importance, these data sources cannot be considered neither complete nor totally accurate, because annotations are not always revised before their publication, sometimes include erroneous information, beside being incomplete by definition. In this scenario, computational methods that are able to quicken the curation process of such data are very important. This has motivated the development of computational algorithms and software that utilize the available genomics information for gene function prediction, able to provide prioritized lists of biomolecular annotations to the biologists, in order to orientate their future research and experiments. With this thesis, we first face the problem of predicting novel gene functions (or biomolecular annotations) through different computational machine learning methods, in which we take advantage of the properties of co-occurrences of annotations to suggest new likely gene functions. We propose some computational methods, implemented in an integrated framework, able to produce prioritized lists of predicted annotations, sorted on the basis of their likelihood. Particularly, we enhance an annotation prediction method already available in the literature, and then developed two variants of it, based on gene clustering and term-term similarity weight. In addition, we also deal with the issue of the validation of the predicted annotations. Scientists keep adding new data and information to the annotation data banks as long as they discover new gene functions, and sometimes these data are erroneous or inaccurate. In addition, new discoveries are made every day, and the available information cannot be considered definitive. For these reasons, such databases are always incomplete. This leads to a significant problem of "validation", because we do not have a true "gold standard" to refer. So, we designed and developed different validation procedures able to check the quality of our predictions. We introduce a validation phase consisting into a Receiver Operating Characteristic (ROC) analysis, a search for the predicted annotations into a new updated database version, and eventually an analysis of the available knowledge in the literature and through some available web tools. To better understand the variation of the output predicted lists of annotations, we design and develop new measures, based on the Spearman coefficient and the Kendall distance. Such measures are able to state the level between two lists by analyzing the difference between positions of the same element in two lists, and by evaluating the number of element couples having contrary order in the two lists. These measures demonstrated to be able to show important patterns otherwise difficult to notice. Finally, we provide a visualization and statistical tool able to state the novelty of the predicted gene annotations, denoted as "novelty indicator". For each gene, this tool is able to depict the tree graph of the predicted ontological annotation terms, producing images easily understandable also by non-experts, and also a statistical value that states the level of "novelty" of the prediction. Our tests and experiments confirmed the efficiency and the effectiveness of our algorithms, by retrieving manifold predicted annotations as confirmed in the updated database or in the literature. The similarity measures resulted very useful to understand the similarity of our predicted lists, making us able to see specific similarity patterns while key parameters vary. The "novelty indicator", eventually, resulted very useful in producing tree graphs able to make our lists of predicted biomolecular annotations clearly usable by biologists and scientists. We believe that the tools presented within this thesis may be very useful to the bioinformatics and scientific community to address future research experiments about gene functions.
FIORINI, CARLO ETTORE
PERNICI, BARBARA
20-mar-2014
I geni sono le unita' essenziali e piu' importanti d'un organismo vivente, e la conoscenza delle loro funzioni e' un punto centrale nella comprensione dei processi biologici fisiologici e patologici, nonche' nello sviluppo di nuovi farmaci e terapie. Nella comunita' biologica e scientifica, le assocazioni di questo tipo tra un gene ed una funzione sono state recentemente denominate \{annotazioni biomolecolari". Purtroppo, la scoperta di nuove annotazioni e' spesso un'operazione lunga e costosa, perche' lunghi e costosi sono gli esperimenti biologici "in vitro" eseguiti da medici e biologi. I rapidi avanzamenti nelle tecnologie d'analisi dei dati del genoma hanno reso molte funzioni geniche disponibili online in pubbliche basi di dati e banche dati. Nonostante la loro innegabile importanza, queste sorgenti di dati non possono essere considerate ne' complete ne' del tutto accurate, perche' le annotazioni non sono sempre riviste prima della pubblicazione, ed a volte includono informazioni errate, oltre ad essere incomplete per definizione. In questo scenario, metodi computazioni in grado d'accelerare il processo di mantenimento di queste banche dati sono davvero importanti. Questo ha motivato lo sviluppo di algoritmi computazionali e software che utilizzano le informazioni genomiche disponibili per fare predizioni di funzioni geniche, in grado di fornire liste ordinate per priorita' d'annotazioni biomolecolari ai biologi, per orientare la loro ricerca ed i loro futuri esperimenti. Con questa tesi, prima affrontiamo il problema della predizione di nuove funzioni geniche (o "annotazioni biomolecolari") attraverso diversi metodi d'apprendimento automatico ("machine learning"), nei quali sfruttiamo le proprieta' statistiche delle co-occorrenze tra annotazioni per suggerire l'esistenza di nuove probabili funzioni geniche. Proponiamo alcuni metodi computazionali, implementati in un software integrato, in grado di generare liste d'annotazioni predette, ordinate sulla base delle loro probabilita'. In particolare, proponiamo un miglioramento d'un metodo di predizione d'annotazioni gia' presente in letteratura, e ne sviluppiamo poi due varianti, basate sul raggruppamento ("clustering") di geni e sull'inserimemnto di pesi di similarita' tra termini. Inoltre, affrontiamo la questione cruciale della validazione delle annotazioni predette. Dato che gli scienziati, mentre scoprono nuove annotazioni, continuano ad aggiungere nuovi dati ed informazioni (a volte errati o non accurati) alle banche dati tutti i giorni, queste basi di dati risultano incomplete per definizione. Questo porta ad un significativo problema di validazione, perche' chi predice computazionalmente nuove annotazioni non ha un vero "gold standard" a cui riferirci, con cui confrontare i propri risultati. Percio' abbiamo progettato e sviluppato diverse procedure di validazione in grado di controllare la qualita' delle nostre predizioni: nella tesi introduciamo una fase di validazione che consiste nell'analisi delle curve "Receiver Operating Characteristic (ROC)", nella ricerca delle annotazioni predette un una versione aggiornata della base di dati, ed infine nell'analisi della conoscenza disponibile in letteratura e tramite alcuni strumenti web. Per comprendere meglio la variazione delle liste d'annotazioni predette generate in output, abbiamo progettato e sviluppato due nuove misure, basate sul coefficiente di Spearman e sulla distanza di Kendall. Questi coefficienti sono in grado d'esprimere il livello di similarita' tra due liste analizzando il numero di coppie d'elementi che hanno diverso ordine nelle due liste. Le due misure introdotte hanno dimostrato d'essere in grado d'evidenziare interessanti andamenti e correlazioni altrimenti difficili da osservare. Infine, forniamo un strumento statistico e di visualizzazione in grado d'esprimere il livello di "novita'" delle predizioni d'annotazioni fatte per i geni, chiamato "novelty indicator". Per ogni gene, questo strumento e' in grado di disegnare un grafo ad albero dei termini predetti, producendo immagini facilmente comprensibili anche dai non-esperti, insieme ad un valore statistico che esprime il livello di novita' della predizione. I nostri test ed esperimenti hanno confermato l'efficienza e l'efficacia dei nostri algoritmi, ritrovando molte annotazioni predette come confermate nel database aggiornato o in letteratura. Le misure di correlazione sono risultate molto utili nel capire il livello di similarita' tra le nostre liste di predizione, permettendoci d'osservare specifici andamenti di similairta' quando alcuni parametri-chiave variano. L'indicatore di novita', infine, e' risultato molto utile nel generare grafi ad albero ed immagini in grado di rendere le nostre liste d'annotazioni biomolecolari usabili facilmente da biologi e scienziati Crediamo che gli strumenti presetati all'interno di questa tesi possano essere molto utili per la comunita' bioinformatica e scientifica, per meglio indirizzare futuri esperimenti sulle funzioni geniche, e permettere cosi' nuove scoperte o aprire nuove strade nella comprensione della biologia.
Tesi di dottorato
File allegati
File Dimensione Formato  
2014_03_PhD_Chicco.pdf

accessibile in internet per tutti

Descrizione: Thesis text
Dimensione 1.85 MB
Formato Adobe PDF
1.85 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/88161