Benchmarking of deep neural networks for predicting personal gene expression from DNA sequence highlights shortcomings
https://www.nature.com/articles/s41588-023-01524-6
2023, nature genetics
딥러닝 방법은 최근 유전체 DNA로부터 유전자 발현 예측을 포함하여 다양한 조절 유전체학(regulatory genomics) 과업에서 최고 수준의 성능(SOTA)에 도달했다. 이에 따라(As such), 이런 방법들은 개인 유전체에서 관찰되는 전체 유전 변이 스펙트럼을 해석하는데 중요한 도구가 될 것으로 기대를 모으고 있다(promise to serve as ~). 기존의 평가 전략들은 여러 유전체 부위에 걸친 유전자 발현 예측력을 측정해 왔으나, 개인 유전체 해석 도구로서의 유용성을 직접 평가할 수 있는 개인 간 예측 성능에 대한 체계적인 벤치마킹은 부족한 실정이다.
*Previous evaluation strategies have assessed their predictions of gene expression across genomic regions; however, systematic benchmarking is lacking to assess their predictions across individuals, which would directly evaluate their utility as personal DNA interpreters.
본 연구에서는 ROSMAP 연구에서 얻은 총 839명의 개인 전장 유전체 시퀀스(WGS) 및 유전자 발현 쌍데이터를 활용하여, 다양한 유전좌위(loci)에서 개인간 유전자 발현 변동(variation)을 예측하는 기존 모델들의 능력을 평가했다. 그 결과, 현재 방법론들이 변이가 미치는 영향의 방향성을 정확히 예측하는 데 한계가 있음을 발견했다.우리는 이러한 한계가 서열 모티프 문법을 충분히 학습하지 못한 데서 기인함을 증명하고 성능 개선을 위한 새로운 모델 학습 전략을 제안한다.
*task:과제 테스크 -> 과업
*previous: 이전 -> 기존의