Utilize este identificador para referenciar este registo: https://hdl.handle.net/1822/64122

TítuloPhagePromoter: phage promoters online analysis tool
Autor(es)Sampaio, Marta Sofia Costa
Orientador(es)Dias, Oscar
Oliveira, Hugo Alexandre Mendes
Palavras-chaveBacteriophages
Genome annotation
Promoters
Machine learning
Models
Bacteriófagos
Anotação de genomas
Promotores
Aprendizagem máquina
Modelos
Data2018
Resumo(s)In the last decades, the emergence and evolution of the Next Generation Sequence technologies have revolutionised genomic research, leading to an exponential increase in the number of sequenced genomes. Many of the sequenced genomes belong to bacteriophages (phages), mostly due to their therapeutic potential against bacterial infections. This abundance of genomic data demands the creation of user-friendly bioinformatics tools for performing genome annotation. The most challenging step in phage genome annotation is the identification of regulatory elements, primarily promoters, to understand phage transcription regulation mechanisms. Thus, in this work, PhagePromoter, a tool for promoter prediction in phage genomes, was developed, using machine learning methods. Several models were created using different datasets and machine learning algorithms, such as support vector machines (SVM), artificial neural networks (ANN) and Random Forests (RF). All models were tested using a 5-fold cross-validation process. The datasets were composed by known phage promoter sequences, mainly retrieved from the phiSITE database, and by a different number of negative cases. After optimization, the performance was similar for all models and two were selected to be integrated in the tool: the ANN model created with the dataset containing 1600 negative examples and the SVM model created with the dataset containing 2400 negatives. The ANN model presented 92% of accuracy, 89% of precision and 87% of recall, whereas the SVM model presented 93% of accuracy, 91% of precision and 80% of recall. Hence, the first model will predict more sequences as promoters and may lead to more false positives. The SVM model will return few positive results, but most of them will be correct classified while some real promoters may not be identified by the model. PhagePromoter was integrated in the widely used Galaxy framework, available at https://galaxy.bio.di.uminho.pt/?tool_id=get_proms&version=0.1.0&__identifer=4u05obc3o5w, which provides a graphical user interface. This tool returns better results when compared to other tools, such as BPROM, PromoterHunter and CNNpromoter_e.
Nas últimas décadas, o surgimento e a evolução das tecnologias de Nova Geração de Sequenciação revolucionaram a investigação genómica, levando a um aumento exponencial no número de genomas sequenciados. Muitos destes genomas pertencem aos bacteriófagos (fagos), principalmente devido ao seu potencial terapêutico contra infeções bacterianas. Esta abundância de dados genómicos requer a criação de ferramentas bioinformáticas intuitivas e fáceis de usar, para facilitar a anotação de genomas. O ponto mais difícil da anotação de genomas de fagos é a identificação de elementos reguladores, principalmente promotores, que irá permitir uma melhor compreensão dos mecanismos de regulação da transcrição nos fagos. Assim, neste trabalho, foi desenvolvida uma ferramenta, PhagePromoter, para prever promotores em genomas de fagos, usando métodos de aprendizagem automática. Vários modelos foram desenvolvidos usando diferentes conjuntos de dados e algoritmos, como máquinas de vetor de suporte (SVM), redes neuronais artificiais (ANN) e Random Forests (RF). Todos os modelos foram testados usando o processo de validação cruzada com 5 folds. Os conjuntos de dados são constituídos por sequências de promotores de fagos conhecidas, retiradas maioritariamente da base de dados phiSITE, e por números diferentes de casos negativos. Depois de otimizados, os modelos obtiveram resultados semelhantes e dois foram escolhidos para serem incorporados na ferramenta: o modelo ANN treinado com o conjunto de dados com 1600 exemplos negativos e o modelo SVM treinado com o conjunto de dados com 2400 exemplos negativos. O modelo ANN apresentou 92% de exatidão, 89% de precisão e 87% de sensibilidade, enquanto que o modelo SVM apresentou 93% de exatidão, 91% de precisão e 80% de sensibilidade. Assim, o primeiro modelo irá prever mais sequências como promotoras, podendo originar mais falsos positivos. Já o modelo SVM irá prever poucas sequências como promotoras, mas a maioria estarão corretamente classificadas, enquanto que alguns promotores reais poderão não ser identificados. PhagePromoter foi integrada no Galaxy, uma framework amplamente usada, disponível em https://galaxy.bio.di.uminho.pt/?tool_id=get_proms&version=0.1.0&__identifer=4u05obc3o5w, que fornece uma interface gráfica para o utilizador. A ferramenta desenvolvida obtém melhores resultados quando comparada com outras ferramentas como BRPOM, PromoterHunter e CNNpromoter_e.
TipoDissertação de mestrado
DescriçãoDissertação de mestrado em Bioinformatics
URIhttps://hdl.handle.net/1822/64122
AcessoAcesso aberto
Aparece nas coleções:BUM - Dissertações de Mestrado
DI - Dissertações de Mestrado
CEB - Dissertações de Mestrado / MSc Dissertations

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Marta Sofia Costa Sampaio.pdfDissertação de Mestrado2,14 MBAdobe PDFVer/Abrir

Partilhe no FacebookPartilhe no TwitterPartilhe no DeliciousPartilhe no LinkedInPartilhe no DiggAdicionar ao Google BookmarksPartilhe no MySpacePartilhe no Orkut
Exporte no formato BibTex mendeley Exporte no formato Endnote Adicione ao seu ORCID