Please use this identifier to cite or link to this item: http://hdl.handle.net/1843/BUOS-8SSRGX
Type: Tese de Doutorado
Title: Escore de incerteza em bancos de dados categóricos
Authors: Deive Ciro de Oliveira
First Advisor: Wagner Meira Junior
First Co-advisor: Marcelo Matos Santoro
First Referee: Alexandre Plastino de Carvalho
Second Referee: Roney Santos Coimbra
Third Referee: Glaura da Conceicao Franco
metadata.dc.contributor.referee4: Jose Miguel Ortega
Abstract: Temos observado um grande crescimento no volume de dados biológicos, em particularde natureza biomolecular, armazenados em bancos de dados como Genbank, KOGGSCOP, PDB e Uniprot, os quais são acessados livremente através da internet e tem tidoum impacto enorme nas atividades de pesquisa e desenvolvimento. Esse crescimento é explicado pelo desenvolvimento de novas e menos dispendiosas técnicas de obtenção daqueles dados, assim como menor custo e maior disponibilidade de meios de armazenamento e comunicação. Uma distinção importante entre esses bancos é com relação à forma de geração e manutenção da base de dados. Alguns bancos têm seus dados gerados a partir de métodos computacionais (in silico) e não são submetidos a processos de revisão. Outros bancos, denominados curados, adotam supervisão especializada nos processos de geraçãoe revisão de características, a qual pode ser feita pelos usuários que acessam esses bancos através da internet. Os bancos de dados curados alcançam alto padrão de qualidade em termos de anotação mas possuem um alto custo comparado a processos automatizados.Neste contexto, metodologias e técnicas para auxiliar no processo de revisão são relevantes, pois tornam a curagem mais eciente e reduzem o custo de realizá-la. Este trabalho tem por objetivo investigar, desenvolver e avaliar tais metodologias e técnicase apresenta duas contribuições principais. A primeira é uma metodologia para caracterizartemporalmente modicações em um banco de dados categórico. Essa metodologia é aplicada ao UniprotKB/Swiss-prot, quanticando as taxas de modicações especícasem palavras-chave do UniprotKB/Swiss-prot. Também são apresentadas as modicações nas associações existentes entre as palavras-chave, sob perspectiva temporal. A segundacontribuição é uma metodologia para auxílio no processo de revisão em bancos de dados categóricos. Um exemplo de aplicação é a revisão do campo palavras-chave do bancode dados UniprotKB/Swiss-prot, onde pudemos observar que a metodologia proposta é efetiva.
Abstract: We have been witnessing a signicant growth in the volume of biological data, in particular biomolecular data that are stored in databases such as Genbank, KOGG SCOP, PDB, and Uniprot, which are made available through the internet and have been causing a major impact in research and development activities. Such growth is explained by the development of novel and less costly data gathering techniques, as well as, lower costs and higher availability of storage and communication resources. A key feature that distinguishes those databases is regarding the rocedure to generate and to maintain those databases. Several databases are created using automated procedures (in silico) and the resulting data is not curated by an expert. Other databases, named curated, employ specialized supervision for both generation and revision of haracteristics, which may be performed by the users that access the databases through the internet. The curated databases present a much higher quality with respect to annotations, but are very costly when compared to automatic processes. In this scenario, research on novel methodologies and techniques that help on the revision process are relevant, since they make it more ecient and less costly. This work aims to investigate, develop, and evaluate these methodologies and techniques and has two main contributions. The rst is a methodology for temporally characterizing the modications in a categorical database. This methodology is appliedto the UniprotKB/Swiss-prot, and quantied the record changes in keywords from this database. We also characterize the modications on the keywork associations, under a temporal perspective. The second contribution is a methodology for improving the revision process. An example of application scenario is the revision of the eld keywords fromthe UniprotKB/Swiss-prot database, where we can clearly see that proposed methodology is efective.
Subject: Banco de dados
Bioinformática
Mineração de dados (Computação)
language: Português
Publisher: Universidade Federal de Minas Gerais
Publisher Initials: UFMG
Rights: Acesso Aberto
URI: http://hdl.handle.net/1843/BUOS-8SSRGX
Issue Date: 1-Dec-2011
Appears in Collections:Teses de Doutorado

Files in This Item:
File Description SizeFormat 
bioinform_tica.deivecirooliveira_tese.pdf764.83 kBAdobe PDFView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.