분류학적 분석전에, NGS로 생산된 많은 수의 메타지놈 리드들을 줄이기 위해 수행하는 단계입니다.
비슷한 리드끼리 묶어서 그들의 대표 서열을 추출합니다.
그룹별로 묶는 기준은 다음과 같습니다.[1]
(1) 메타지놈 read가 가지고 있는 마커 유전자 서열들의 상호 유사도
MEGAN, Metaphyler
(2)각 read의 조성(G,C 염기의 비율, k-mer 의 read 내 분포 등)
Phylopythia, phymmBL
혹은 묶는 알고리즘에 따라 분류할 수 있습니다.[2]
전통적으로 비닝은 참조 데이터 세트에 대해 contig를 정렬하여 수행되지만 최근에는 unsupervised binning에 더 많은 연구가 진행되었습니다.
(1) taxonomy-dependent
Taxator-tk : Hidden Markov 모델 프로필을 사용하여 마커 유전자(예: 16S rRNA)와의 유사성을 식별한다.
(2) supervised binning
HMMER, PhyloPythiaS(þ) : 참조 데이터베이스에서 훈련된 지원 벡터 머신 모델을 활용
(3) unsupervised binning
- MetaCluster : 이중 그룹화 알고리즘, k -mer( k > 36)를 사용하여 읽기를 그룹화한 다음 유사한 테트라뉴클레오티드 또는 펜타뉴클레오티드 분포를 기반으로 그룹을 병합합니다. 이 다음 16 mer frequencies 를 사용하여 풍부도가 낮은 종의 contig는 비웁니다.
- MaxBin : EM(expectation-maximization) 알고리즘을 이용해 단일 종의 contig로 구성된 빈으로 클러스터링, 이후 nucleotide 조성 및 contig 풍부도 고려합니다.
- CONCOCT : 가우스 혼합 모델을 이용해 contig를 클러스터링, 비닝 하기 위해 여러 샘플을 포함하는 테트라뉴클레오타이드 빈도와 차등 존재비를 모두 결합합니다. 즉 여러 환경 샘플에서 시퀀스 구성과 적용 범위의 정보를 통합합니다.
- MetaBAT : 테트라뉴클레오타이드 빈도를 기반으로 확률적 거리를 계산하여 contig의 쌍별 데이터 정렬을 활용합니다. contig의 Binning은 k 에 의해 수행됩니다.-medoid 클러스터링 알고리즘 및 시퀀싱된 게놈의 종간 및 종간 거리에 대해 모델링합니다.
Reference
'Bioinfomatics > microbiome' 카테고리의 다른 글
[microbiome] EPI2ME workflow (0) | 2022.08.24 |
---|---|
[microbiome] long-read seq(nanopore, MinION) 16S rRNA analysis (진행중) (0) | 2022.08.23 |
short-read metagenomics - step4. Taxonomic classification (0) | 2022.07.13 |
short-read metagenomics - step2. gene prediction (0) | 2022.07.13 |
short-read metagenomics - step1. assembly (0) | 2022.07.13 |