본문 바로가기

Bioinfomatics/microbiome

short-read metagenomics - step2. gene prediction

Gene calling, Gene prediction, ORF finding  라고도 하는

유전자 예측은 메타지놈 샘플의 기능적 분석의 초석이 되는 단계입니다.

NGS로 생상된 수많은 메타지놈 서열 중 어느 곳이 유전자에 해당하는 서열인지를 찾는 과정입니다.[1]

 

가장 간단한 방식은 ORF를 찾는 것입니다.

박테리아, 고세균 및 바이러스의 게놈은 일반적으로 DNA 서열의 90% 이상을 구성하는 단백질 코딩 영역과 함께 매우 유전자 밀도가 높습니다. 따라서 단백질 코딩 ORF를 검출하는 것은 중요합니다.[3]

유전자의 밀도가 높은 곳이 ORF 임을 가정하고 예측하는 방식을 사용합니다.

 

[단백질 코딩 ORF를 검출]

현재 GeneMarkS , Glimmer3 및 Prodigal 과 같은 유전자 예측 도구 는 검증된 단백질 코딩 ORF를 검출하는 데 상당히 높은 정확도(>97%)를 나타냅니다[2]. 그러나 여전히 개선의 여지가 있습니다.

1. 종 특이적 모델과 일치하지 않는 서열 패턴을 가진 유전자가 존재하기 때문에, ORF start site를 식별하는 정확도를 높일 수 있습니다.

2. 데이터베이스 검색을 통해 보존적인 단백질 코딩 지역과 다른 종과의 상동성 정보등을 이용해, true positive 비율을 희생하지 않고 FPR 비율을 줄일 수 있습니다.

 

[특정 서열 검출]

더 나아가, 마커 유전자(rRNA)와 같이 특정 서열을 찾을 수 있습니다. tRNA 서열을 특이적으로 예측하는 대표적인 프로그램으로는 tRNAScan-SE, CRISPR 서열 부위로 추측되는 구간을 찾아주는 프로그램으로 CRT, CRISPRmap 등이 있습니다.[1]

 

메타게놈 DNA 단편에서 유전자를 예측하는 몇 가지 방법이 있습니다. 이러한 예측 알고리즘은 다음과 같이 나뉩니다. homology-based, model-based and machine learning-based methods[4]

 

[1] https://koreascience.kr/article/JAKO201432558387471.pdf

[2] https://academic.oup.com/bib/article/22/1/178/5678919

[3] https://academic.oup.com/bioinformatics/article/23/6/673/419055?login=true 

[4] https://www.hindawi.com/journals/bmri/2017/4740354/