본문 바로가기

Paper

간단리뷰 Day 39. Deep-learning prediction of gene expression from personal genomes ((검토끝나면 다시 읽어볼것)

Deep-learning prediction of gene expression from personal genomes

https://link.springer.com/article/10.1186/s13059-025-03926-7

2026, Genome Biol, 3 citation

파운데이션 모델의 궁극적인 형태가 개인(individual) level의 시퀀스 생성/분석인데,
이를 구현한 모델로 살펴보고자함.

 

배경: DNA 서열로부터 유전자 발현 수치를 예측하는 모델들은 개인의 유전체 서열이 주어졌을 때 개인 간의 차이를 예측하는 데 어려움을 겪고 있다. 이러한 모델들은 일반적으로 참조 유전체(reference genome) 서열로 학습되므로, 학습 과정에서 특정 유전좌위의 유전적 변이 사례를 전혀 경험하지 못한다. 이것이 변이가 포함된 개인 유전체 서열에 대해 모델의 일반화 성능이 떨어지는 이유일 수 있다.

결과: 본 연구는 개인 유전체와 그에 매칭된 조직 특이적 유전자 발현 값을 활용한 파인튜닝을 통해, 심층 서열 기반 신경망 모델인 Variformer를 개발했다. 학습에 포함되지 않은 피험자들을 대상으로 테스트한 결과, Variformer는 대부분 유전자의 cis-유전율(cis-heritability)에 근접하는 정확도로 발현량을 예측했다. 또한, 전 범위의 대립유전자 빈도(allele frequency)에 걸쳐 모티프 구조 파괴 및 기타 기능적 주석이 풍부한 유전 변이들의 우선순위를 성공적으로 선정했다. 반면, Variformer가 학습되지 않은 새로운 유전자(unseen genes)에 대해서는 일반화에 실패한다는 점도 확인했다.

결론: 본 연구는 개인 유전체를 활용한 파인튜닝이 기존에 보고된 '미학습 개인에 대한 유전자 발현 예측'의 결점들을 보완할 수 있음을 시사한다. 하지만, 여전히 새로운 유전좌위에도 적용 가능한 수준의 유전자 조절 문법(regulatory grammar)을 학습하지는 못했다. 결과적으로 파인튜닝된 딥러닝 모델은 현재 가장 우수한(SOTA) 선형 모델들과 유사한 성능 및 한계를 공유하고 있으며, 이는 해당 분야에서 해결해야 할 기술적 간극이 존재함을 시사한다.

*thus share similar performance and limitations of state-of-the-art linear models

 

*held-out data: 시험 문제를 미리 보여주지 않기 위해 따로 빼놓은 데이터

*cis-heritability: cis는유전학에서 "근처"를 뜻함, 즉 유전자 주변(DNA 서열 자체)의 변이가 해당 유전자의 발현량 차이를 얼마나 설명할 수 있는가

*Correct shortcomings 결점을 보완하다

*Across: "~에 걸쳐", "~ 전반에"

데이터의 범위나 비교 대상을 의미.

*Highlighting: "~을 강조하며", "~을 드러내며", "~하며", 시사하며
분사구문(~ing)으로 문장 끝에 올 때는 앞선 내용의 결과나 의의를 덧붙이는 역할

*Given 주어졌을 때

*which may explain: 이것이 ~이유일 수 있다.

1. Problem

  • predict RNA levels from DNA의 중요성
    • tissue - specific gene reulatory 
    • genetic of trait
    • noncoding gennetric variation
  • training strategies
    • variant-based linear models
    • sequence-based deep learning models
  • current limitaions
    • linear models:
      • 0/0,0/1,1/1 를 모델링하는 방법론
      • common variant(데이터가 많은)에 대해서만 예측가능
      • eQTL을 찾은 결과가 항상 co-localie, trait-associated
      • require additional fine-mapping
    • dl
      • fail explain individual expression differ
      • eqtl direction struggle
      • rely on promoter proximal variants
  • -> 하지만 variformer가 모두 커버하진 못함.. 

2. Background

  • eQTL: 개인의 유전자 발현에 관여하는 snp allele 
    • linearmodel은 해당 snp의 aa, Aa, AA에 따른 발현량을 예측할 수 잇게됨.
  • Enformer: Basenji2(CNN)에 영향을 받아 Transformer 로 교체한뒤 input seqeunce를 늘린 모델
    • 128 bp를 갖는 bin 단위로, 5,313 genomic 피처를 예측함.
    • 앞뒤 320 bp  를 crop함
    • Human만 mouse만 (1,643), human/mouse 모두 중에서 모두 내는 모델임.
      • regulatory 일반적 문법을 이해하기위함이라 모두 사용한것일까?
    • 실험 전략: frame shift / reverse complentary해서 training agumentation 함.

3. Idea

 

GitHub - lucidrains/enformer-pytorch: Implementation of Enformer, Deepmind's attention network for predicting gene expression, i

Implementation of Enformer, Deepmind's attention network for predicting gene expression, in Pytorch - lucidrains/enformer-pytorch

github.com

 

  • 헤드 교체: Enformer의 기존 출력부(Head)를 떼어내고, 하나의 수치만 출력하는 단순한 선형 레이어
    • Enformer의 내제된 regulatory grammar를 활용한다는 가설.
    • fine-tuning 시 fully 업데이트한게 낫더라! <- last layer보다, 
  • 입력과 출력: 49kb 서열을 넣으면 모델은 내부적으로 384개의 구간(bin)으로 나누어 분석.
  • 예측 방식: 384개 구간 중 전사 시작점(TSS)이 포함된 정중앙(192번째) 구간의 값 하나만 골라 최종 발현 예측값으로
    • 어텐션 기법 덕분에 중앙값 하나만 써도 주변 조절 요소(enhancer 등)의 정보가 충분히 반영되므로

**observed/expected 개인간 차이를 맞춰줌. 한 배치상에서 같은 gene 에 대해서만 구성.  cis-heritabilty 로 이끌고감 <- 같은 변이에 대해 다른 expression 을 갖는 개인차.

* Enformer는 서열을 약 128bp 단위의 bin으로 쪼개서 처리

4. Materials & Methods

  • 데이터 제작: 참조 유전체에 개인의 변이(SNV)를 심어 개인별 맞춤 서열을 생성 (한 사람당 2개의 서열 생성)
  • 서열 길이를 Enformer 모델 대비 4분의 1(약 49kb)로 줄여서 입력
  • 입력 방식 (Average Encoding): 두 개의 서열(부계/모계 추정)을 각각 인코딩한 뒤 평균을 내어 하나의 입력값으로함,
    • gene dosage :  homozygous snvs, heterozygous_homogyous snvs 로 구분해서 반영함.

이 방식의 장점:

  1. 연산 속도가 빠름.
  2. 유전적 정보가 섞여 있어도(unphased) 학습의 혼선을 방지함.
  3. 유전자 용량(Dosage: 0, 0.5, 1) 개념을 모델이 자연스럽게 인식하게 함.

데이터 정규화 (Target)

- 입력: 한 사람당 2개의 서열

- 출력(target): 한 사람 + 한 조직 + 한 유전자 = 숫자 하나

  • 표준화: GTEx v8 에서 whole blood 및 brain cortex 조직 정규화된 데이터 사용
  • 필터링:
    • 샘플의 20% 미만에서 0.1 TPM 미만이거나 6개 미만의 리드(reads)를 가진 유전자는 제거
    • ex. 100명 중 20명 미만에서 TPM이 0.1 이상 -> 제거
    • 한 유전자가 어떤 샘플에서 read count < 6 -> 제거
    • 절단 평균(trimmed mean) : outlier 제거힌 평균
    • 역정규 변환(inverse normal transform): 발현값 기반 순위로 바꾼뒤 정규분포화
  • 모델 구조 변경 (Architecture)
    • 헤드 교체: Enformer의 기존 출력부(Head)를 떼어내고, 하나의 수치만 출력하는 단순한 선형 레이어로 바꿨습니다.
    • 입력과 출력: 49kb 서열을 넣으면 모델은 내부적으로 384개의 구간(bin)으로 나누어 분석합니다.
    • 예측 방식: 384개 구간 중 전사 시작점(TSS)이 포함된 정중앙(192번째) 구간의 값 하나만 골라 최종 발현 예측값으로 썼습니다.
    • 타당성: 어텐션 기법 덕분에 중앙값(변이를 삽입한 지역임) 하나만 써도 주변 조절 요소(enhancer 등)의 정보가 충분히 반영되므로 예측에는 지장이 없습니다.

5. Evaluation & Findings

  • penalized linear model (elastic net) 과 비교

6. Take away

  • 살펴보니.. 우리 실험이랑 유사한 것을 보니 .. 내 실험이 산으로간게 아니구나...를 확인함.
  •  loss function 을 왜 선택했는지, 왜 full layer fientuing을 했는지, ...등 충실히 잘 설명된 논문.
  • 예측이 잘 안나온 gene 은 cis-heritabilty 가 떨어지는 유전자일것이다. 이런식의 해석으로 잘 이끌어낸 논문이다.
  • 참고할만한 검증 방법: motif distrupting(motif break r), hsv(ranking -> priotrize...가능하다)
  • 참고할만한 검증 전략: gene/individual hold out, gene triming, ...
  • 3개 모델이다. 즉 각 tissue에 specific 모델임.
  • 긴 gene는 커버를 못하고, 짧은 gene의 경우 상관없는 지역이 많이 들어가는 이슈 -> 인풋 가변화는 못할까?
  • 완전히 non-coding snv예측이 어려움.
  • 재미있었던 논문
  • supple도 볼만한.