본문 바로가기

Bioinfomatics/microbiome

short-read metagenomics - step3. contig binning

분류학적 분석전에, NGS로 생산된 많은 수의 메타지놈 리드들을 줄이기 위해 수행하는 단계입니다.
비슷한 리드끼리 묶어서 그들의 대표 서열을 추출합니다.

 

그룹별로 묶는 기준은 다음과 같습니다.[1]

(1) 메타지놈 read가 가지고 있는 마커 유전자 서열들의 상호 유사도

MEGAN, Metaphyler

 

(2)각 read의 조성(G,C 염기의 비율, k-mer 의 read 내 분포 등)
Phylopythia, phymmBL

혹은 묶는 알고리즘에 따라 분류할 수 있습니다.[2]

전통적으로 비닝은 참조 데이터 세트에 대해 contig를 정렬하여 수행되지만 최근에는 unsupervised binning에 더 많은 연구가 진행되었습니다.

 

(1) taxonomy-dependent

Taxator-tk : Hidden Markov 모델 프로필을 사용하여 마커 유전자(예: 16S rRNA)와의 유사성을 식별한다.

 

(2) supervised binning

HMMER, PhyloPythiaS(þ)  : 참조 데이터베이스에서 훈련된 지원 벡터 머신 모델을 활용

 

(3) unsupervised binning

  • MetaCluster : 이중 그룹화 알고리즘, k -mer( k  > 36)를 사용하여 읽기를 그룹화한 다음 유사한 테트라뉴클레오티드 또는 펜타뉴클레오티드 분포를 기반으로 그룹을 병합합니다. 이 다음 16 mer frequencies 를 사용하여 풍부도가 낮은 종의 contig는 비웁니다. 
  • MaxBin : EM(expectation-maximization) 알고리즘을 이용해 단일 종의 contig로 구성된 빈으로 클러스터링,  이후 nucleotide 조성 및 contig 풍부도 고려합니다.
  • CONCOCT : 가우스 혼합 모델을 이용해 contig를 클러스터링, 비닝 하기 위해 여러 샘플을 포함하는 테트라뉴클레오타이드 빈도와 차등 존재비를 모두 결합합니다. 즉 여러 환경 샘플에서 시퀀스 구성과 적용 범위의 정보를 통합합니다. 
  • MetaBAT : 테트라뉴클레오타이드 빈도를 기반으로 확률적 거리를 계산하여 contig의 쌍별 데이터 정렬을 활용합니다. contig의 Binning은 k 에 의해 수행됩니다.-medoid 클러스터링 알고리즘 및 시퀀싱된 게놈의 종간 및 종간 거리에 대해 모델링합니다.

Reference

[1] https://academic.oup.com/bib/article/22/1/178/5678919

[2] https://koreascience.kr/article/JAKO201432558387471.pdf