Publications

Detailed Information

Application of Exact Alignments with an In-memory Core Gene Database for an Improved Metagenomic Taxonomic Classification : 정확한 서열정렬기법과 인메모리 핵심 유전자 데이터베이스 기반의 향상된 메타유전체 분류법

Cited 0 time in Web of Science Cited 0 time in Scopus
Authors

Mauricio Antonio Chalita Williams

Advisor
천종식
Issue Date
2020
Publisher
서울대학교 대학원
Keywords
MetagenomeShotgunK-merExact matchStreptococcusBacteroidesCore GenesSequence classification
Description
학위논문 (박사) -- 서울대학교 대학원 : 자연과학대학 협동과정 생물정보학전공, 2020. 8. 천종식.
Abstract
샷건 메타지노믹스는 미생물과 숙주 또는 환경사이의 미치는 영향을 이해하는데 매우 중요한 역할을 하고 있다. 기술의 발달과 더불어 메타지노믹스를 통한 올바른 미생물 종의 동정과 각 종들의 분포는 마이크로바이옴 연구의 핵심 구성요소가 되었으며, 지난 10년간 샷건 메타지노믹스 분석을 위한 여러 알고리즘과 데이터베이스들이 개발되어져 왔다. 하지만 서로 다른 기준 데이터 혹은 알고리즘을 사용한 방법들은 서로 다른 분류 정보와 분석 파이프라인으로 인하여 편향된 결과를 나타내기도 하였는데, 이를 보완하고 보다 정확한 분류 동정을 위해 배양이 어려운 표준 균주와 같은 다양한 균주의 유전체 데이터를 포함하는 기준 데이터베이스의 중요성이 대두되고 있다.
샷건 메타지노믹스 분석에서 또 다른 중요한 요소는 분석에 소요되는 시간이라 할 수 있는데 대부분의 생물정보학적 프로그램들은 계산을 수행함에 있어 메모리와 알고리즘 최적화가 되어있지 않아 분석에 상당한 시간이 소요되는 문제점이 있다. 이러한 문제를 해결하기 위해, 본 연구에서는 exact match k-mer classification과 같은 방법을 사용하여 분석 속도를 향상시켰으며 Up-to-date Bacterial Core Gene (UBCG)를 기준 데이터베이스로 사용하여 보다 정확한 샷건 메타지노믹 분석을 수행할 수 있게 하였다.
분석의 효율성을 높이기 위해 두개의 기준 UBCG 데이터베이스가 만들어 졌으며 한 개는 박테리아의 분류체계에서 유효한 종명 (Valid names)만을 가지고 있는 데이터베이스와 다른 하나는 유효한 종명과 함께 EzBioCloud에 있는 genomospecies를 가지고 생성하였다. 검증을 위해 Streptococcus 종을 포함하는 (i) 합성된 메타지놈 샘플과 (ii) 만성 폐쇄성 폐질환(COPD) 환자의 임상 검체 (iii) 혈류 감염 환자의 임상 검체로 이루어진 세개의 데이터 셋을 이용하였으며 기존에 널리 알려진 샷것 파이프라인인 MetaPhlan2과 본 연구의 파이프라인을 비교 분석하였다.
위 검증 분석에서 UBCG를 기준 서열로 사용하기에 충분함을 검증하였으며, 빠르고 정확하게 기준 유전체에서 UBCG 서열을 뽑아 샷건 분석에 용이함을 증명하였다. 또한 genomospecies를 기준 데이터베이스에 추가함으로써, 보다 개선된 분류 정확도를 얻을 수 있음을 제시하였다. 마지막으로 비록 여러 파이프라인과 데이터베이스들이 존재하지만 보다 신뢰할 수 있는 분류결과를 얻기 위해선 기준 데이터베이스의 지속적인 업데이트와 분류 체계의 검증의 중요함을 강조하였다.
이후 본 연구에서 개발된 파이프라인을 이용하여 4,000개의 샷건 메타지놈 샘플에서 사람에 장내에 가장 많이 발견되는 Bacteroides 종에 대한 분석을 수행하였다. 많은 양의 데이터를 분석하여야 하기 때문에 기존에 많이 사용되는 MetaPhlAn2 과 같은 방법은 사용할 수 없었으며 분석 결과 Bacteroides는 도시화된 사람에게 많이 분포하는 반면 아프리카 혹은 남미지역에서 원시적 부족의 삶을 사는 사람에게서는 상대적으로 적게 분포함을 확인할 수 있었다. 또한 각 나라별 인구에서는 우점되는 Bacteroides 종이 다름을 확인할 수 있었는데 이는 각 연구의 샘플링 방법 혹은 위치에 따라 설명되어 질 수 있었다. 실험용 쥐의 결과에서는 가장 다양한 Bacteroides를 관찰할 수 있었으며 이는 많은 수의 기준 유전체가 생쥐에게서 나왔기 때문인 것으로 생각된다. 또한 고양이나 강아지 같은 반려동물의 샘플에서도 높은 상관관계를 발견할 수 있었는데 각 동물들의 생활양식과 먹이에 따른 결과인 것으로 보인다.
본 연구를 통해 보다 많은 메타지놈 데이터 분석의 필요성을 강조하고 있으며, 핵심 유전자들을 기준 데이터로 사용하는 방법의 실효성과 성능을 검증하였다. 이러한 핵심 유전자 기반의 기준 데이터베이스는 보다 정확하고 전체 미생물의 풍부도를 예측하는데 중요한 역할을 하는 것을 확인하였고 k-mer 방법을 통해 기존에 존재하던 다른 파이프라인 보다 더욱 빠른 결과를 도출할 수 있었다. 마지막으로 빠르게 기준 데이터베이스를 만들 수 있기 때문에 항상 최신의 데이터를 가지고 분석을 수행할 수 있으며 이는 궁극적으로 본 연구의 파이프라인을 실질적으로 연구나 진단 목적으로 이용하는 연구자들에게 큰 도움이 될 것이다.
Shotgun metagenomics is of great importance to understand the microbial community composition of a sample and the impact it has on its host. The proper identification and quantification of bacterial species is a key component of any microbiome research that is based on metagenomic samples. In the last decade, several algorithms and databases have been developed, however the differences between references and the type of algorithm used for the classification makes the comparisons among themselves unfair and bias. The contents of the reference database, including genome sequences of type strains or reference genomes of uncultured species, have a great impact on the performance of the classification results of metagenomic samples.
Another significant factor on shotgun metagenomics is the classification speed as most current bioinformatic tools lack computational and memory optimization. Here, I propose several enhancements to a well-known method, exact match k-mer classification in order to increase the overall speed of a metagenomic classification. This method was further improved by the use of Up-to-date Bacterial Core Gene (UBCG) sequences to provide better method for a faster and accurate shotgun metagenomic profiling classification.
In order to prove the efficiency of our method, I built two UBCG-based reference databases: one containing UBCG sequences of valid named species, and the second one containing UBCG sequences of all valid named species and genomospecies in the EzBioCloud database. Three datasets containing Streptococcus species were used to evaluate the improved method against the MetaPhlan2 tool which is the most widely used open-source shotgun metagenomic classifier: (i) synthetic metagenomic samples, (ii) clinical sputum samples from patients with chronic obstructive pulmonary disease (COPD), and (iii) clinical samples of a blood stream infection.
In this analysis, I demonstrated that UBCG sequences can be used as references for metagenomic classification, showing that they are easy to extract from genome sequences and accurate when predicting relative abundance. I also showed that the inclusion of genomospecies in the reference databases, significantly improves the classification accuracy of bacterial species within a metagenomic sample. Finally, I showed that while publicly available pipelines and databases are easily accessible, for accurate and reliable taxonomic classification, an updated database with proper taxonomic and genomic curation must be used.
The method devised in this work is then applied to profile the Bacteroides species in over 4,000 shotgun metagenomic samples, which is one of most abundant members of the human gut microbiome. This task cannot be accomplished using conventional tools such as MetaPhlAn2 due to the high processing time they require. The results in this study showed that Bacteroides is high abundant in human samples from urban areas while being low abundant in humans from rural areas, particularly African and South American tribes. Countries showed dominance for a specific Bacteroides species, but this could also be explained by the type of study were the samples came from. Mice samples showed the most diversity of Bacteroides, this can be attributed by the number of bacterial references isolated from this organism. House cat and dog samples showed correlation between each other, this may be attributed to the similarities of their lifestyle and diet.
This study shows the importance of having a great number of samples for any given metagenomic analysis, and even though, we have profiled thousands of samples, more might be needed in the future. The method proposed in this thesis demonstrates that core genes are reliable reference sequences for shotgun metagenomics. Their implementation as reference sequences in metagenomic databases improves the accuracy of the abundance prediction of any given sample. Additionally, with the use of a k-mer approach, this methods running time outperforms the most popular shotgun metagenomic tools.
The work presented in this thesis aims to help microbial research by providing faster and accurate metagenomic taxonomic predictions. Finally, with the ability of updating a metagenomic database with ease, will help researchers to obtain the most up-to-date results to find potential diagnosis or treatments for diseases associated to human microbial communities.
Language
eng
URI
https://hdl.handle.net/10371/170771

http://dcollection.snu.ac.kr/common/orgView/000000161786
Files in This Item:
Appears in Collections:

Altmetrics

Item View & Download Count

  • mendeley

Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

Share