Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/GRFO-7ZGK4Q
Type: Tese de Doutorado
Title: Racionalizando a utilização do algoritmo PHRED para a análise de seqüências de DNA
Authors: Francisco Prosdocimi de Castro Santos
First Advisor: Jose Miguel Ortega
First Co-advisor: Fabricio Rodrigues dos Santos
First Referee: Georgios Joannis Pappas
Second Referee: Ana Tereza Ribeiro Vasconcelos
Third Referee: Marcos Augusto dos Santos
metadata.dc.contributor.referee4: Sergio Danilo Junho Pena
Abstract: A ciência é, por vezes, dogmática. Mesmo o cientista questionador às vezes é obrigadoa tomar como verdade algo que se acredita na comunidade de forma a realizar suaspesquisas em busca do conhecimento. Na área da genômica, alguns dogmas estãoainda arraigados à cultura científica e o objetivo principal da presente tese foi tentar,na medida do possível, questionar e testar alguns desses dogmas com a intenção detrazer à luz da razão um conhecimento mais sólido sobre alguns limitados aspectosrelacionados, principalmente, ao processo de nomeação das bases (base-calling). Paraavaliar, portanto, a utilização do algoritmo PHRED, o principal nomeador de basesutilizado em projetos genoma, desenvolvemos primeiro uma metodologia sólida deanálise. Tal metodologia tentou diminuir o número de variáveis a se analisar em umacorrida de seqüenciamento para que nossas análises não levassem em consideraçãopeculiaridades específicas de uma ou outra reação produzida. Dessa forma, realizamoso seqüenciamento de um vetor de clonagem bastante conhecido (pUC18) em um únicoconjunto, homogeneizando as amostras de forma que a única variável possível fosse aseparação eletroforética e o padrão de nomeação de bases. Produzimos, portanto, 846seqüências do vetor pUC18 que foram comparadas, através de alinhamentos locais,com um controle positivo: a seqüência já publicada para esta molécula. Dessa forma,pudemos identificar os erros do seqüenciamento / nomeação de bases e avaliardiferentes parâmetros de utilização do algoritmo PHRED. Verificamos que o padrão deerros observado era relativamente igual ao esperado, que as bases incorretas nãopodiam ser previstas através da observação dos valores de qualidade de suavizinhança e que as trocas (mismatches) são mais comuns quando associadas avalores baixos de qualidade, enquanto se nota a presença de erros relacionados aindels de alta qualidade. Percebemos também uma aplicação desta abordagem para oprocesso de desenho de iniciadores de seqüenciamento e realizamos um estudoavaliando este tópico, o qual mostra que a leitura de boa qualidade é iniciada a umadistância mensurável à jusante do iniciador de seqüenciamento. Com o objetivo detentar mascarar as bases incorretas em letras minúsculas, observamos que o valor dequalidade 7 parece ser o mais adequado para utilizar nesses casos, em boa parte dassituações. Além disso, calibramos o programa PHRED para funcionar de forma aapresentar apenas a informação não-ruidosa, biologicamente relevante. Por último,analisamos ainda a formação de consensos a partir dessas seqüências e mostramos asurpreendente ineficiência do re-seqüenciamento de forma a produzir seqüências fiéisà molécula molde.
Abstract: Science is sometimes dogmatic. Even the very thinker scientists are sometimes forcedto accept as true something believed by the community in order to advance theirresearch. In the genomic research field, some dogmas are still attached to scientificculture and the main goal of this thesis is the tentative to question some of thesedogmas and bring to the light of reason a consistent knowledge about some restrictaspects related to the base-calling process. Therefore, in order to evaluate theexecution of PHRED, the main base-caller used in genome projects, we first develop aconsistent methodology of analysis. Using this methodology we have tried to reducethe number of variables to be analyzed in sequencing reads, making our analysis freeof particularities happening in some specific sequencing reaction. With this in mind, wehave performed the sequencing of a well-known cloning vector (pUC18) in a singlepool,homogenizing the samples before and after the sequencing reaction. So, 846sequences from the pUC18 cloning vector were produced by single-pool and compared,through local alignments, with a positive control: the sequence published for thismolecule. This comparison allowed us both to identify precisely the errors happening inthe sequencing and/or base-calling and to evaluate different parameters used forPHRED running. We have verified (1) an error pattern very similar to the expected one,(2) the impossibility to predict errors evaluating the base quality values surroundingthe neighborhood of miscalled bases, (3) the high presence of mismatches in lowquality values and (4) the presence of some indels in high quality regions. We haverealized also an application of these base-calling data to the process of designingprimers for sequencing and one study was published on this subject. Trying tosoftmask low quality bases, we have made another study to find the best PHREDquality value to be used to mask most of the errors without masking correct bases.Moreover, we have studied and adjusted PHRED trimming parameters in order toretrieve from the sequence just the biologically relevant information. At last, we haveanalyzed the consensus production through different number of sequencing reads inorder to find the appropriate number of sample re-sequencing to generate a highfidelitymolecule.
Subject: Bioinformática
Sequenciamento e análise de cDNAs
Algoritmos geneticos
language: Português
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/GRFO-7ZGK4Q
Issue Date: 1-Nov-2006
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
prosdocimiphdthesis.pdf4.91 MBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.