Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUBD-9DKH48
Type: Tese de Doutorado
Title: Enzymap: explorando metadados protéicos para modelagem e previsão de mudanças de anotação no Uniprot/Swiss-Prot
Authors: Sabrina de Azevedo Silveira
First Advisor: Wagner Meira Junior
First Co-advisor: Carlos Henrique da Silveira
metadata.dc.contributor.advisor-co2: Raquel Cardoso de Melo
First Referee: Carlos Henrique da Silveira
Second Referee: Raquel Cardoso de Melo
Abstract: A geração de dados biológicos experimentou um crescimento sem precedentes nas últimas décadas. Fatores como otimização e diminuição do custo de diversos processos laboratoriais associados às novas técnicas de sequenciamento de DNA, o sequenciamento de proteínas e a determinação de sua estrutura foram responsáveis pela geração de uma grande quantidade de dados. Muitos deles estão em bases de dados biológicos disponibilizadas publicamente através da Internet. Essas bases armazenam não apenas dados biológicos propriamente ditos, mas também informações relevantes a respeito de função de proteína, dados da literatura e relação entre proteína e seu gene codicante, dentre outros metadados, também chamados de anotação. Nesse trabalho é proposta uma estratégia baseada em aprendizado supervisionado para caracterizar e prever mudanças de anotação em dados temporais denominada ENZYmatic Metadata Annotation Predictor (ENZYMAP). Mais precisamente, estamos interessados em prever anotação de função de enzima com base em metadados das entradas do repositó- rio UniProt/Swiss-Prot. Essa proposta permite sugerir possíveis correções para anotações e pode ser utilizada de modo complementar a outros métodos de anotação ajudando a aprimorar a qualidade e conabilidade do repositório usando dados já disponíveis, o que não demanda novos experimentos de bancada. Além disso, há um enorme volume de dados que não pode ser analisado manualmente, daí a importância de métodos de anotação automática conávies. Foi realizada uma exploração inicial dos dados na qual as mudanças de anotação de enzima foram modeladas considerando a natureza numérica e hierárquica do sistema de classificação de enzimas Enzyme Comission (EC) number. Essa etapa deu origem à uma ferramenta de visualização interativa chamada ADVISe e a um artigo publicado no IEEE Symposium on Biological Data Visualization (BioVis), 2012. Na sequência foram selecionados metadados do Swiss-Prot para descrever entradas que sofreram um tipo especíco de mudança de EC das entradas cuja anotação se manteve constante. Matrizes de ocorrência foram propostas para modelar as mudanças de EC number em termos dos metadados do Swiss-Prot e serviram como insumo para a estratégia de aprendizado supervisionado. Para caracterizar e prever as mudanças de anotação EC, três experimentos foram realizados: Descritivo Multiclasse, no qual conclui-se que os metadados selecionados foram capazes de discriminar entradas que experimentaram uma mudança específica no EC number daquelas entradas em que a anotação permaneceu constante; Previsivo Multiclasse nos indicou que prever a última ocorrência de um determinado tipo de mudança de EC utilizando um único classicador multiclasse com número escasso de exemplos não foi possível; Previsivo Origem Comum, no qual conclui-se que é possível fazer previsão de um determinado tipo de mudança de EC utilizando classicadores mais especializados mesmo com a restrição do número de exemplos. As previsões realizadas pelo ENZYMAP foram comparadas às previsões feitas pelo software DETECT, que associa um EC number à sequência de resíduos de uma proteína, e ambas foram confrontadas com as anotações do Swiss-Prot. O percentual de previsões feitas pelo ENZYMAP que está de acordo com o Swiss-Prot é maior que o mesmo percentual para o DETECT para todos os quatro níveis da anotação EC.
Abstract: In recent decades there has been a surge in the amount of available biological data. New DNA sequencing technologies have made economically possible an increasing number of large data projects, which led to an exponential increase in DNA sequence data. Also, vast amounts of data such as protein sequences and structures, gene-expression measurements, protein and genetic interactions and phenotype studies have been produced. Much of these data are organized and publicly available to the scientic community in biological repositories via the Internet. These repositories store not only biological raw data but also relevant information such as protein function, literature information and the relationship between a protein and its encoding gene, among other metadata, also called annotation. In this work we propose a supervised learning approach to characterize and predict annotation changes in temporal data, which we term ENZYmatic Metadata Annotation Predictor (ENZYMAP). More precisely, we are interested in predict enzyme function annotation based on UniProt/Swiss-Prot entry metadata. This proposal allows us to suggest possible corrections to annotations from biological repositories and can be used in a complementary manner to other annotation methods improving the quality and realiability of these data. Our approach uses data already available to enhance the repository, which does not demand new expensive bench experiments. Furthermore, there is a huge volume of data that can not be analyzed manually, hence the importance of reliable automatic annotation methods. We performed an initial exploration of the data in which changes in enzyme annotation were modeled considering the numeric and hierarchical nature of the enzyme classication system called Enzyme Commission (EC) number. This step led to the creation of an interactive visualization tool called ADVISe and also to the publication of an article in IEEE Symposium on Biological Data Visualization (BioVis), 2012. Then some metadata from Swiss-Prot were selected to discriminate entries that experienced a specic EC change type from those which annotation remained constant. Ocurrence matrices were proposed to model EC number changes in terms of Swiss-Prot metadata and such matrices served as input for the supervised learning approach. We performed three experiments to characterize and predict EC number changes: Descriptive Multiclass, in which we concluded that selected metadata were able to discriminate entries that undergone a specic EC number change from those which annotation remained constant; Predictive Multiclass indicated that predicting the last ocurrence of an EC change type using a single multiclass classier with a scarce number of examples was not possible; Predictive Common Source, in which we concluded that predicting an EC change type using more specialized classiers is possible even with a scarce number of examples. We compared predictions made by ENZYMAP to predictions made by DETECT, a technique able to associate an EC number to the residues' sequence of a protein, and both were checked against Swiss-Prot annotations. The percentage of predictions made by our approach that is in accordance with Swiss-Prot is greater than the same percentage for DETECT for all four levels of EC annotation.
Subject: Metadados
Bioinformática
Análise enzimática
Mineração de dados (Computação)
language: Português
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/BUBD-9DKH48
Issue Date: 14-Feb-2013
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
tese_sabrina.pdf1.79 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.