본문 바로가기

Bioinfomatics/microbiome

short-read metagenomics - step1. assembly

short read sequencing 의 주요 이점은 단일 실행 내에서 대규모 병렬 방식으로 수십억 개의 읽기를 생성할 수 있다는 것입니다. 즉 비교적 저렴한 비용으로 높은 판독 횟수를 생성할 수 있다는 점이 장점이기 때문에 초반에는 많이 사용된 시퀀싱 방법입니다. 주로 Illumina 시퀀싱 플랫폼을 이용하며 그외 HiSeq, NestSeq, MiSeq 이 존재합니다.

 

short read sequecning은 50 ~ 1000의 짧은 read를 생성하기 때문에 보다 긴 조각으로 변환시키는 assembly 단계가 필요로합니다.  다중 게놈(박테리아, 균류, 바이러스, 고세균)을 포함하는 복잡한 환경 샘플을 분석에 있어서는 De novo assembly를 사용합니다.

reference genome에 read를 매핑하는 방법과 달리, De novo assembly란 reference genome을 이용하지않고 짧은 read 조각들의 중첩하는 지역 정보만을 이용해 assembly하는 방법입니다.

 

이렇게 de novo assembly을 통해 read 조각을 더 긴 시퀀싱인 contig 로 만든 다음 어셈블리하면, 유전자를 식별하고 종을 재구성함으로써 메타유전체 분석이 진행됩니다.

 

 

일반적인 메타유전체학 어셈블리의 경우 일반적으로 MegaHit , metaSPAdes , RayMeta , IDBA-UD 이 사용됩니다.

de novo assembly 중 De Bruijn graph 알고리즘 기반의 어셈블리로서, Eulerian path 알고리즘으로도 불리웁니다.

 

[ De Bruijn graph 알고리즘]

k개의 염기가 연속된 염기서열을 k-mer 라고 합시다.

현재 노드의 (k-1)-mer 중첩되는 read 를 다음 노드로 나열하는 방식으로, De Gruijin graph를 그리게 됩니다.(아래그림 참고)

각각의 edge를 한번만 지나는 경로를 따라서 다양한 경로를 찾을 수 있게 됩니다.

그리고 그 경로가 지나가는 노드들의 시퀀스 모음이 우리가 찾고자하는 결과가 됩니다.

Reference

[1] https://academic.oup.com/bib/article/22/1/178/5678919

[2] https://koreascience.kr/article/JAKO201432558387461.pdf

[3] https://training.galaxyproject.org/training-material/topics/assembly/tutorials/debruijn-graph-assembly/slides.html#7