Please use this identifier to cite or link to this item: https://hdl.handle.net/10316/105979
Title: In silico approaches for the detection of zinc ion in regulatory proteins
Other Titles: In silico approaches for the detection of zinc ion in regulatory proteins
Authors: Motresku, Ulyana
Orientador: Carvalho, Alexandra Teresa Pires
Almeida, Beatriz Columbiano
Keywords: Fatores de Transcrição; Locais de ligação de zinco; Estrutura de proteínas e Coordenação ao zinco; Aprendizagem computacional; Química computacional; Transcription factors; Zinc binding-sites; Protein structure and Zinc coordination; Machine Learning; Computational Chemistry
Issue Date: 29-Sep-2022
Serial title, monograph or event: In silico approaches for the detection of zinc ion in regulatory proteins
Place of publication or event: CNC
Abstract: As proteínas reguladoras são macromoléculas complexas essenciais para o funcionamento biológico. A literatura recente tem mostrado grandes lacunas na caracterização de proteínas reguladoras, principalmente relacionadas com a falta do ião zinco nas estruturas dos cristais e à ausência de informações sobre seu papel. Assim, uma melhor caracterização molecular é essencial para aumentar a nossa compreensão das proteínas reguladoras dependentes de metais, uma vez que estas têm grande valor em áreas como a biomedicina e biotecnologia. Por este motivo, implementamos abordagens in silico para prever resíduos com ligação ao ião zinco em fatores de transcrição.Primeiro, construímos o nosso próprio conjunto de dados com fatores de transcrição e, em seguida, extraímos um conjunto de características heterogéneas contendo características baseadas na sequência e estrutura das proteínas. Três modelos do estado da arte foram implementados e otimizados com nossos dados, Convolutional Neural Networks (CNN), Long-Short Term Memory Neural Networks (LSTM) e Gated Recurrent Units (GRU), bem como validados com um conjunto de dados de benchmark.As características baseadas na sequência relacionadas aos resíduos cisteína e histidina, bem como a estrutura secundária onde o resíduo está localizado são as características com maior correlação linear com o alvo. Os modelos LSTM e GRU sofrem overfitting obtendo os mesmos valores em F1-Measure para o treino 65% e em F1-Measure em teste 43%. O modelo CNN reporta os menores valores F1-Measure em teste de 41%. Portanto, GRU é o nosso melhor modelo com valores de F1-Measure de 65,165%-treino, 52,926%-validação e 42,898%-teste.Neste projeto usamos a sequência de aminoácidos completa em vez de apenas resíduos de ligação específicos, o que é uma vantagem sobre os modelos implementados do estado da arte. Além disso, os nossos resultados de treino abrem as portas para melhorias quando as sequências de aminoácidos são usadas em tarefas semelhantes.
Regulatory proteins are complex macromolecules essential for biological functioning. Recent literature has shown large gaps in regulatory proteins characterisation, mainly pertaining to the lack of zinc ion in the crystal structures and the absence of information about its role. Thus, an improved molecular characterisation is essential to increase our understanding of metal-dependant regulatory proteins since they have great value in biomedical and biotechnological fields. Therefore, we implemented in silico approaches to predict zinc-binding residues in transcription factors.First, we constructed our own dataset with transcription factors, and then we extracted a set of heterogeneous features containing sequence and structure based features. Three state of the art models were implemented and optimised with our data, Convolutional Neural Networks (CNN), Long-Short Term Memory Neural Networks (LSTM) and Gated Recurrent Units (GRU), as well as validated with a benchmark dataset.The sequence based features related do the cysteine and histidine residues and the secondary structure where the residue is localised are the features with higher linear correlation with the target. The LSTM and GRU models overfitted obtaining training F1-Measure of 65% both and low test F1-Measure of 43% both. The CNN model reports the lowest values with test F1-Measure of 41%. Therefore, GRU is our best model with F1-Measure values of 65.165%-training, 52.926%-validation and 42.898%-testing.Here we used the complete amino acid sequence instead of just specific binding residues, which is an advantage over the state of the art implemented models. Also, our training results opened the doors for improvement when amino-acid sequences are used in similar tasks.
Description: Trabalho de Projeto do Mestrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia
URI: https://hdl.handle.net/10316/105979
Rights: embargoedAccess
Appears in Collections:UC - Dissertações de Mestrado

Files in This Item:
File Description SizeFormat
Thesis_Ulyana_Motresku.pdf7.9 MBAdobe PDFView/Open
Show full item record

Page view(s)

17
checked on May 14, 2024

Download(s)

12
checked on May 14, 2024

Google ScholarTM

Check


This item is licensed under a Creative Commons License Creative Commons