Predição de estruturas secundárias de proteínas usando aprendizado de máquina e BLAST [recurso eletrônico]
DISSERTAÇÃO
Português
T/UNICAMP OL4p
[ Protein secondary structure prediction using machine learning and BLAST ]
Campinas, SP : [s.n.], 2021.
1 recurso online ( 139 p.) : il., digital, arquivo PDF.
Orientadores: Zanoni Dias, Hélio Pedrini
Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação
Resumo: Proteínas, que são sequências de aminoácidos, são fundamentais em diversos processos biológicos dos seres vivos. Devido às interações físicas e químicas entre os aminoácidos que formam as proteínas, estruturas tridimensionais locais e globais são formadas. Com os avanços tecnológicos na área...
Resumo: Proteínas, que são sequências de aminoácidos, são fundamentais em diversos processos biológicos dos seres vivos. Devido às interações físicas e químicas entre os aminoácidos que formam as proteínas, estruturas tridimensionais locais e globais são formadas. Com os avanços tecnológicos na área biológica, o sequenciamento de proteínas se tornou simples e rápido de ser feito. Por outro lado, a definição de estruturas tridimensionais locais, chamadas de estruturas secundárias, e globais, chamadas de estruturas terciárias, continua custosa. Estruturas tridimensionais têm alto impacto na definição de funções de proteínas e no auxílio ao desenvolvimento de aplicações, como remédios e biossensores. Como opção para a definição de estruturas globais das proteínas a partir da sequência de aminoácidos, a análise de estruturas secundárias se tornou o principal método intermediário na literatura. Para realizar a predição de estruturas secundárias, duas abordagens são mais comumente utilizadas, sendo elas métodos baseados em modelo, que usam ferramentas que encontram proteínas similares, e métodos livres de modelo, que usam classificadores de aprendizado de máquina. Nos trabalhos recentes, diversas metodologias foram propostas para predizer estruturas secundárias, porém este problema continua em aberto. Outro ponto importante nos métodos atuais é que a maioria das abordagens utiliza informações evolutivas além da sequência de aminoácidos que formam as proteínas, sendo incapazes de predizer estruturas secundárias utilizando apenas a cadeia de aminoácidos. Nesta pesquisa, propomos diversos classificadores baseados em modelo e livres de modelo para realizar a classificação de estruturas secundárias das proteínas. Além da análise individual dos classificadores, investigamos a fusão entre os preditores baseados em modelo e preditores livres de modelo, assim como a fusão entre todos os classificadores. Nossos preditores são capazes de classificar estruturas secundárias a partir de sequências de aminoácidos com ou sem informações evolutivas, o que não é possível para a maioria dos métodos disponíveis na literatura. Os resultados obtidos em três bases de dados diferentes mostram que nossos classificadores são competitivos comparados com as abordagens da literatura.
Abstract: Proteins, which are sequences of amino acids, are fundamental in several biological processes of living beings. Due to physical and chemical interactions between the amino acids that form proteins, local and global three-dimensional structures are formed. With technological advances in the...
Abstract: Proteins, which are sequences of amino acids, are fundamental in several biological processes of living beings. Due to physical and chemical interactions between the amino acids that form proteins, local and global three-dimensional structures are formed. With technological advances in the biological area, protein sequencing has become simple and quick to be done. On the other hand, the definition of local three-dimensional structures, called secondary structures, and global three-dimensional structures, called tertiary structures, remains costly. Three-dimensional structures have a high impact on the definition of protein functions and the aid of application development, such as medicines and biosensors. As an option for the definition of global protein structures from the amino acid sequence, the analysis of secondary structures has become the main intermediate method in the literature. To perform the prediction of secondary structures, two approaches are most commonly used, namely template-based methods, which use tools that find similar proteins, and template-free methods, which use machine learning classifiers. In recent works, several methodologies have been proposed to predict secondary structures, but this problem remains open. Another important point in current methods is that most approaches use evolutionary information in addition to the sequence of amino acids that form proteins, being unable to predict secondary structures using only the chain of amino acids. In this research, we propose several template-based and template-free models to classify secondary structures of proteins. In addition to the individual classifier analysis, we investigated the fusion between template-based predictors and template-free predictors, as well as the fusion between all classifiers. Our predictors can classify secondary structures from amino acid sequences with or without evolutionary information, which is not possible for most methods available in the literature. The results obtained in three different databases show that our classifiers are competitive compared to the approaches in the literature.
Requisitos do sistema: Software para leitura de arquivo em PDF