Development of a computational approach for the identification and annotation of transport proteins

Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/47386

Título:	Development of a computational approach for the identification and annotation of transport proteins
Autor(es):	Faria, Daniel Torres Varzim
Orientador(es):	Dias, Oscar Rocha, Miguel
Palavras-chave:	Machine learning Transport proteins Models Characterization Linguagem máquina Proteínas transportadoras Modelos Caracterização
Data:	2016
Resumo(s):	In the last decade, given the evolution of next-generation sequencing techniques, the number of sequenced genomes has grown exponentially [2]. The framework merlin [1], developed by the Biosystems research group (University of Minho) is a tool capable of generating genome-scale metabolic models. The identification of genes encoding transport proteins and the metabolites transported by them are essential tasks for the development of more robust and accurate genome-scale metabolic models. For this work, seven different machine learning models were trained and tested, using a five-fold cross validation process, on different datasets to identify and classify transport proteins. To prove the value of the developed models, four different datasets composed by well annotated proteins from TCDB and SwissProt were used. Ensembles of the models created using different datasets showed good overall performance with accuracy reaching 91% and low standard error; F1 scores reach 0.90 (+/- 0.00), making them a good solution for the identification and characterization of transport proteins given a new unannotated genome. The models used to identify transport proteins had a bigger number of false negatives compared to false positives (almost three times bigger) meaning that the confidence level of the classification of a protein as a transporter is high, and that these models miss a relevant number of transporter proteins that misclassified. Na última década, dada a evolução nas técnicas de sequenciação de nova geração, o número de genomas sequenciados tem vindo a crescer exponencialmente [1]. A ferramenta merlin, desenvolvida pelo grupo de investigação Biosystems (Universidade do Minho) é uma ferramenta capaz de gerar modelos metabólicos à escala genómica. A identificação de genes que codificam proteínas transportadoras e os metabolitos transportados por estas são tarefas essenciais para o desenvolvimento de modelos metabólicos à escala genómica mais robustos e precisos. Para este trabalho foram treinados e testados sete modelos de aprendizagem máquina diferentes, usando um processo validação cruzada repetido 5 vezes, em conjuntos de dados diferentes, para identificar e classificar proteínas transportadoras. Para provar o valor dos modelos desenvolvidos foram criados quatro conjuntos de dados diferentes compostos por proteínas curadas provenientes das bases de dados TCDB e SwissProt. Os conjuntos de modelos criados usando vários conjuntos de dados apresentaram um bom desempenho global, com o melhor a atingir 91% de acerto e desvio padrão baixo; o valor de F1-score atinge os 0.90 (+/- 0.00), fazendo destes modelos uma boa solução para a identificação e caracterização de proteínas transportadoras dado um genoma não anotado. Os modelos usados para identificar proteínas transportadoras apresentaram um maior número de falsos negativos comparado com o número de falsos positivos (quase três vezes maior) o que significa que os níveis de confiança para uma classificação em proteína transportadora são elevados, e que os modelos falham um número ainda significativo de proteínas transportadoras que são incorretamente ignoradas.
Tipo:	Dissertação de mestrado
Descrição:	Dissertação de mestrado em Bioinformática
URI:	https://hdl.handle.net/1822/47386
Acesso:	Acesso aberto
Aparece nas coleções:	BUM - Dissertações de Mestrado CEB - Dissertações de Mestrado / MSc Dissertations

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
Daniel Torres Varzim Faria.pdf		1,34 MB	Adobe PDF	Ver/Abrir

Ver registo completo Sugerir correção Estatísticas