카테고리 없음

Accurate proteome-wide missense variant effect prediction with AlphaMissense

한거루 2025. 2. 9. 20:43

https://www.science.org/doi/10.1126/science.adg7492

저널 클럽으로 선정된 논문이다.

VEP 예측 연구 참고용 논문으로 mathod/materials 중심으로 보고자한다.

*파란색으로 표시된 문장은 주관적인 생각이므로 해석에 유의


 

Motivation & Purpose

 

동기

  • 시퀀싱 기술의 발달로 인간 집단내 수 많은 유전적 변이를 밝혀냈다.
  • 특히 점돌연변이 missense variant의 경우  아미노산 서열을 바꾸기 때문에 pathogenic 경향이 있고 해당 단백질의 기능과 건강을 완전히 망가트린다.
  • 관찰된 400만개가 넘는 관찰된 missense vaiant 중에서 clinically하게 밝혀진것은 전체 2%(8만개) 뿐으로
    여전히 변이를 분류하는 것은 지속적인 과제이다.

기존 연구

병원성/비병원성을 분류하는 방법으로 ML(Machine learning approaches)가 효과적인 방법이 될 수 있다.

기존의 4가지 ML 전략:

  1. train directly on human-curated variant databases
    • 초기 방법론으로써, 통계 모델 혹은 앙상블 방법으로 지도 학습한다.
    • 아미노산 서열 + 대체된 위치와 아미노산 정보(변이정보)를 입력받으며, 학습데이터로 curated된 데이터 혹은  여러 ML 예측 결과를 앙상블하여 사용한다. 아미노산 서열뿐만아니라 진화보존 정보, 구조정보등을 함께 같이 학습한다.
    • 예시: PolyPhen2, REVEL, VARITY, gMVP
    • 단점: 인간 큐레이터와 이전 실리코 예측자의 편향에 영향 학습 및 테스트 분할 단게에서 데이터 누출 가능성 존재
  2. train with weak labels that do not depend on human classification
    • 1번의 단점인 순환성을 극복하기 위해 약한 레이블(goldstandard가 아닌 노이즈가 있는, 임상적으로 검증된 병원성 여부와는 직접적인 1:1 대응이 아닌)을 이용한 지도학습
    • 예시: CADD, PrimateAI
      • CADD: 시뮬레이션한 변이와 실제 인간 집단에서 관찰된 변이의 차이
      • Primate AI: 진화 과정에서 보존되어 온 것이라면 이를 'benign (양성)'
    • 장점: 잠재적인 인간 큐레이션 편향을 완화
    • 단점: 학습 데이터에 많은 거짓 레이블이 포함
  3. use unsupervised approaches to model the distribution of amino acids
    at a given sequence position conditioned on an amino acid sequence context
    • 아미노산 서열이 주어졌을때, 특정 위치에 대해 옴직한 아미노산 확률을 예측하는 모델을 이용해, 아미노산 서열의 맥락을 학습시킨다. 직접적은 begnine/pathogenic 라벨을 사용하지않는 비지도학습 방법이다.
    • 이런 모델은 병원성은 참조 서열과 대체 서열 간의 log-likelihood를 이용한다.
    • 예시: SIFT, EVmutation,GEMME
    • 장점: 자연적으로 진화된 서열의 분포를 효과적으로 포착
    • 단점: 하지만 AlphaFold(AF)가 달성한 최첨단 단백질 구조 이해가 부족
      • 서열의 분포나 진화적 패턴을 잘 파악하지만, 실제 3차원 구조는 간과하고 있다. 
  4. to exploit protein struc- ture to reason about pathogenicity
    • 왜 이런 단백질 구조를 이해하는 것이 중요한가? 구조적 맥락이 단백질 기능에 직접적인 영향을 해석하는데 중요한 정보를 제공하기 때문이다.
    • 예시: Missense3D(use Phyre2),AlphaFold2, COSMIS(COntact Set MISsense)
    • 장점: 유전적 제약 정량화를 개선
    • 단점: ClinVar 변종에 대해 중간 수준의 성능만 보임(성능이 나쁘지도, 좋지도 않았다.) 학습한 인간 시퀀스 데이터베이스에서 관찰된 유전적 다양성이 낮기 때문이다.

AlphaMissense 전략

  1. 순환성을 피하기위해 인간 주석정보를 사용하지않고 인구 빈도 데이터(약한 레이블)기반의 학습
  2. 비지도 단백질 언어 모델링을 이용해 서열정보 활용
  3. AF을 이용해 구조 정보 사용

성능 평가 환경

  1. curated variant 주석에 대해
  2. de novo 질병 변이에 대해 
  3. 실험 MAVE 벤치마크 데이터

최근 단백질 서열로부터 단백질 구조를 정확하게 예측한 모델 AF가 단백질 생물학의 다른 측면을 이해하기위한 발판이 될 수 있다고 생각.

input sequence variation에 민감하지않고 점돌연변이에 대한 정확도는 떨어지기에 이에대한 finetuning 진행

즉, 정확도를 높이고 기능에 영향을 주는 모든 맥락 정보 3가지,서열 정보 + 보전 정보 + 구조 정보를 모두 사용

 

Materials & Methods

AlphaMissense architecture

 

AlphaMissense는 두 단계로 학습한다:

1. AF pre-trining:

MSA의 무작위 위치에 마스크된 아미노산의 정체성을 예측하여 단백질 언어 모델링과 함께 단일 사슬 구조 예측을 수행한다.

-> AF와 같음

학습 후 마스크된 언어 모델링 헤드는 아미노산 확률과 대체 아미노산 확률 간의 로그 가능도 비율 을 계산하여 변형 효과 예측에 사용

-> MSA Transformer(27) 및 Evolutionary Scale Modeling[ESM(28)] 와 같음 

마스크된 MSA WORNTJD THSTLFDP EJ SHVDMS RKWNDCLFMF ENSEK.

2. 양성/병원성 변이 분류 목표로 fine-tuning:

bening/pathognic training data set으로부터 학습

-> Primate AI와 같이 인간과 영장류 집단에서 관찰되지않은 변이를 pathognic으로 사용

-> 본질적으로 노이즈가 많은 데이터이다., self-distillation 단계 추가 : preliminary AlphaMissense 모델 사용하여 양성일 가능성이 높은 변이는 걸러낸다.

결국 필터링된 훈련 세트를 사용해 fine-tuning 반복

변이 병원성과 참조 시퀀스의 구조를 모두 예측하도록 ㅈ최정화된다.

3. 최종 모델 예측 결과는 6개 모델의 평균이다.

- 3개는 독립적으로 훈련된 모델에 대해 두번 실행 (MSA에 다양성 필터링을 적용한 것과 안한것)

4. AlphaMissense pathogenicity: AlphaMissense 모델이 예측한 원시 점수를 ClinVar 데이터를 이용해 실제 병원성 확률과 일치하도록 보정한 것

5. threshold 값 설정

- “likely pathogenic,” “ambiguous,” or “likely benign.”을 구분하기 위함

- EVE ( 17 ) 접근 방식에 따라 ClinVar 변형에 90%의 정확도로 레이블이 지정되도록 함

6. 비교 분석

-AlphaMissense pathogenicity:

전사체당 모든 가능한 단일 뉴클레오티드 미스센스 변형의pathogenicity scores를 평균하여 계산합니다.

 

Model input

  1. 중심 변이를 선택하고, 구조적으로 가까운(구조정보가 없으면  시퀀스 상에서) 256길이의 서열을 크롭한다.
  2. 같은 위치에 해당하는 reference 서열과 변이 서열은 MSA의 첫번째 두번재 row에 해당된다.
  3. 같은 위치에 대한 primate MSA 데이터(최대 2056샘플)을 가져와 사용한다.
  4. 중심변이와 같은 서열, 같은 유전자내에서 다른 variatn 정보 49개 변이 정보를 가져온다. 이때 중복된 variant는 사용하지 않는다.
  5. 변이가 존재하는 지역은 모두 masked 하여 구체적인 아미노산 변이 정보는 사용하지 않도록한다.
  6. alpha fold2의 핵심 layer인 evoformer를 이용해 reference seq의 양방향 서열 정보 & MSA 정보를 임베딩한다.
  7. 임베딩을 통해 얻은 pair repr은 reference 구조 예측정보를 제공하고,MSA repr는 varaint pathogenicity score(log likehood 로 계산)을 이용한다.
  8. 이때 학습방향은 이진분류(bening, pathogenic)으로 제공하며, 해당 MSA 정보에 따른 차등적인 가중치를 부여해 학습했다.
  9. 그리고 총 3가지 데이터에 대하여 성능을 평가한다.

Human missense variants

두 가지 별개의 리소스를 생성하여 사용

1. proteome-wide predictions

각 UniProt canonical isoform 내에서 가능한 모든 단일 아미노산 치환

SOTA 달성후, 확장하는 것 같음

2. missense proteome map

UniProt canonical isoform과 매칭

각 전사체에 대해 모든 가능한 단일 뉴클레오타이드 치환을 생성한 후, 참조 유전체와 비교하여 번역 시 단일 아미노산 치환이 발생하는 변이만을(시작 및 종료 코돈은 제외하고) 유지, fine-tuning때 사용하는 것 같음

 

 

Training variants

1. Benign variants

  • variants from humans from gnomAD
  • primate variats from Great Ape project(mapped to HG18), and lifted HG19& Baonbo(from FigShare)
  • validation/test set/MAVE 에 속하는 variant는 제거됩니다.
  •  MAF에 따라 classification loss에 가중치를 곱하는 손실가중치 계수를 도입
    • MAVE 데이터를 제외한 검증/테스트 데이터는 레이블이 대립 유전자 빈도에 영향을 받기 때문
    • 높은 빈도를 갖는 변이들이 양성일 가능성이 높기 때문에, MAF가 높을 수록 높은 가중치를 사용
    • 영장류 변이는 1.0
    • 이는 빈도 정보가 부족한 아미노산을 보다 정확하게 평가하고 보정한다.

2. Pathogenic variants

  • missense proteome map 중에서 위에서 나오지 않는 가능한 모든 변이(65,314,044개)(unobserved) 사용
    • 많은 유전자가 대체 스플라이싱 등으로 여러 단백질 이소폼을 생성할 수 있는데, 이 중에서 가장 길거나, 가장 많은 실험적 근거나 기능적 중요성이 인정된 이소폼을 'canonical isoform'으로 지정합니다. 이렇게 지정된 canonical isoform은 표준 참조 서열로 사용되어, 단백질 변이 분석, 기능 예측, 그리고 다양한 비교 연구에서 일관성을 유지하는 데 도움을 줍니다.(ref)
  • 양성 세트에서 관찰된 변이에 대해,  미스센스 변이를 샘플링
  • benign set와 동일한 수를 맞추기위해 sampling 진행
    • The probability of sampling a variant from the unobserved set depends on its trinucleotide context and the protein it belongs to.(*trinucleotide: 1 aa 구성 단위, *protein: 양성 변이 집합 내의 단백질 분포 유지 목적)
    • 즉, 변이 샘플링은 (1) 삼뉴클레오타이드 문맥을 고려한 균형 유지와 (2) 특정 단백질이 선택될 확률을 조정하는 방식으로 수행함으로써 양성 변이 샘플링과 동일한 크기와 가중치로 이루어지도록 조정한다.
      (*For each observed variant in the benign set, we sample a missense variant from the pathogenic set and assign it the same loss weight as for the benign variant (see methods))
더보기

> Weighted Sampling 방식

  • 변이(V)의 샘플링 확률은 미관측 집합(U)에서 선택
  • 해당 변이가 속한 단백질(G)과 삼뉴클레오타이드 문맥(T)에 따라 달라진다.

(1) P(T): 삼뉴클레오타이드 문맥(T)에대한 가중치

미관측 세트에 비해 양성변이에서 자주 관찰되는 변이가 많은 T일수록 확률이 커진다.  

(2) P(G|T): 단백질(G)을 선택하는 확률

  1. 양성 변이 집합 내의 단백질 분포를 유지해야 함
  2. 훈련 세트의 다양성을 극대화해야 함

 

  • 첫 번째 항( n(G,T,B)/n(T,B) )은 양성 변이 데이터에서 단백질 G의 빈도를 반영합니다.
  • 두 번째 항( )은 단백질 길이에 따라 가중치를 조정합니다.
  • 마지막 항( n(T,U)/n(G,T,U) )은 미관측 변이 집합 내에서 특정 단백질이 등장하는 비율을 보정하는 역할을 합니다.

Results

 

  1. 총 3가지 데이터세트에 대해서 inference 진행, 좋은 성능을 냈다.
    1. clinvar
      • Class-balanced: auROC 0.940으로 최고성능 달성, ClinVar에서 직접 학습하지 않은 다음으로 좋은 모델 EVE은 0.911
      • Constraint: 높은 진화적 제약이 있는 영역(= 높은 보존지역으로 변이가 발생하면 병원성일 가능성이 높다)에서도 성능이 높다.-> 전통적으로 "보존적이면 병원성일 것이다"라고 판단해서 제약이 강한 영역을 찾지만, alphaMissense은 그 안에서의 영향을 개별적으로 평가(양성/병원성)한다.
      • disordered(3D구조를 형성하지 않음)(Experimental Resolved Head 지표가 기준 AlphaFold 제안 방법) data에서는 성능이 저하된다.
    2. DDI
      • PrimateAI(auROC = 0.797)와 동일한 수준인 0.809의 auROC를 달성
      • (S2)Cancer hotspot mutations 지역에서의 성능 또한 가장 높게 나왔다(0.907의 auROC), 다음으로 좋은 모델인 VARITY(auROC=0.885)
      • 여기까지 벤치마크에서 지속적으로 높은 순위를 차지는 모델이 없었다.
    3. MAVE 벤치마크 데이터
      • 변이에 따른 단백질 활동(성장률/형광기반 점수)을 측정하는 실제로 세포 실험 결과이다.
      • MAVE와 일치하는 모델일수록 변이의 기능적 영향을 잘 예측할 가능성이 높을 것이므로,
        AlphaMissense임상적이지않은 변이에 대해서도 높은 신뢰도를 갖는다. 
      • 왜 이런 해석이 가능한가? MAVE 데이터로부터 세포 단위에서 변이의 영향을 확인할 수 있으며 이게 임상적으로 유의미할지는 모르겠으나 기능이 크게 손실될수록 변이성을 갖을 확률이 높기 때문에 측정 근거로 사용될 수 있는 것이다. 따라서 이런 MAVE 점수 패턴과 유사할수록(correlationd이 높을 수록) clinvar에 의존적이지 않고 실제 단백질 변이의 기능성 영향을 잘 포착하는 모델이라고할 수 있다.
      • 그렇다고 aauROC지표로 삼거나 완전히 일치할 필요는 없는 것이, 기능이 크게 손실되었어도 생체내에서 혹은 임상적으로는 차이가 없을 수 있기 때문.(실제로 MAVE 데이터 분석한 논문(Fig5 b)을 보면 benign/pathogenic 라벨과 일치하지 않았다.)
  2. Calibrated AlphaMissense predictions expand the number of confidently classified variants relative to other methods
    • benchmarking에서 SOTA 달성후 proteome-wide predictions 진행
    • ClinVar vaildation set 으로 보정후, test set으로 결과(figure 2D) 확인 
    • 왜 이런 단계를 진행하는가? 성능이 우수한걸 알았으니 전체 데이터에 대해서도 결과를 생성해서 DB 자원으로써 활용을 높이고
    • 실제 임상에 쓰이기위해서는 보정(Calibration)단계가 필요한데, 단순 로지스틱 회귀로 진짜 변형이아닌 보정을 함. 왜냐? 학습을 임상데이터로 하지 않았기때문에 필요한 것 같음
    • figure 2D 결과 잘 분리되는 것을 확인할 수 있음.
    • 보정된 예측 점수를 사용하여 ACMG(미국 의학유전학회) 분류 기준(32, 34)과 유사한 세 가지 범주로 변이를 분류진행
      • 각 90%의 정확도(precision)를 가지도록 함
      • 교정된 점수의미 : 병원성이 있는 대략적인 확륙

application:

3. Gene-level AlphaMissense pathogenicity predicts cell essentiality

  • 인간 유전학에서는 일반적으로 건강한 인구집단에서 중립적인 것/기능을 심각하게 방해할 것 같은 것을 측정하는 방식 사용
  • 이런 추정치(ex.LOEUF)의 신뢰성은 유전자에서 변ㅇ의 예상 수에 따라 달라지며 코딩 시퀀스 길에 따라 달라진다.
  • AM의 예측이 LOEUF와 유사한 속성을 공유하는 것을 발견, LOEUF의 제한점을 보완하는 대체가능성을 보여줌

4. AlphaMissense predictions as a community resource

4가지 리소스 공개(gpt로 정리)

  1. 71백만(7,100만) 개의 미스센스 변이 예측 데이터
    • 인간 프로테옴 내 모든 가능한 미스센스 변이에 대한 예측 데이터 제공.
    • 이 중 32% (2,280만 개)likely pathogenic(병원성 가능성이 높은 변이),
      57% (4,090만 개)likely benign(양성 가능성이 높은 변이) 으로 분류됨.
    • ClinVar 데이터를 기준으로 90%의 정확도를 달성하는 cutoff를 사용.
  2. 유전자 수준의 병원성 예측 데이터
    • 특정 유전자 내 모든 가능한 미스센스 변이의 평균 병원성 점수를 제공.
    • 유전자별 변이 패턴 분석에 활용 가능.
  3. 216백만(2억 1,600만) 개의 단일 아미노산 치환 예측 데이터
    • 19,233개의 인간 표준 단백질에서 발생할 수 있는 모든 단일 아미노산 변이에 대한 예측 데이터 제공.
  4. 60,000개 대체 전사체(isoform)에서 발생할 수 있는 모든 변이 예측
    • 단백질의 특정 isoform에 따른 변이 영향을 연구하는 데 유용함.

 

Discussion

AlphaMissense 예측이 임상 및 연구에 미치는 영향(gpt로 정리)

  1. 희귀질환 진단 및 임상적 활용
    • AlphaMissense는 기존의 인간 데이터베이스(ClinVar, gnomAD)에서 관찰되지 않은 69.5백만 개의 미스센스 변이 중 61.7백만 개(88.8%)에 대해 신뢰할 수 있는 예측 제공.
    • 이 중 56.0% (3,890만 개)는 likely benign, 32.8% (2,280만 개)는 likely pathogenic으로 분류됨.
    • 기존의 임상 데이터에 의존하지 않고도, 새로운 변이에 대한 병원성 예측이 가능.
  2. 유전자 연관 연구 (Complex Trait Genetics) 기여
    • UK Biobank의 4,000개 이상의 형질(trait)과 연관된 희귀 변이 분석을 수행.
    • AlphaMissense가 likely pathogenic으로 예측한 미스센스 변이는 동의변이(synonymous variants)보다 2배 이상 많은 형질 연관성을 가짐.
    • 이는 기능 손실 변이(pLoF, predicted loss-of-function variants)와 통계적으로 유사한 수준(P = 0.43, Fisher exact test)임.
    • 반면, ambiguous(불확실) 및 likely benign 변이는 형질 연관성이 낮으며, likely benign 변이는 동의변이와 가장 유사한 연관성을 가짐.
    • AlphaMissense 병원성 예측 결과와 pLoF 변이를 결합하면 희귀 변이 후보 수가 3.2배 증가하여, 7,000개 이상의 유전자가 추가로 연구 가능.
  3. MAVE 및 단백질 구조 연구와의 연계
    • AlphaMissense 예측 결과는 MAVE 실험에서 수행하는 미스센스 변이 연구의 출발점으로 활용 가능.
    • AlphaFold 단백질 구조 데이터베이스와 결합하여 변이가 단백질 기능에 미치는 영향을 연구하는 데 기여할 수 있음.

Interested in

  • 총 3가지 데이터세트에 대해서 inference 진행
    • 1. clinvar :  이미 임상적으로 증명된 데이터 셋이고 일반적으로 많이 사용함. 그러나 편향이 존재함
    • 2. DDD(de novo variants), 희귀 발달 장애가 있는 환자와 대조군의 신규 변이체 : 정확한 성능 평가를 위해 비교하기 학습에 사용되지않았을 변이를 사용함. 그리고 확실히 benin/pathogenic을 임상적으로 보이기 때문에
    • 3.MAVE 벤치마크 데이터 from ProteinGym : 기존의 연구간의 일치도를 평가하기 위해

    •  
  • Inference
    • Fig 2(왼쪽 그림): ClinVar데이터를 기준으로 (D) 양성/병원성 AlphaMissense score(AM) 분포와 (F)특정 단백질내 변이별 AM 분포
    • Fig 3(오른쪽 그림): MAVE 결과로 (D)MAVE 결과(1일수록 기능 손실이 큼)와 AM, EVE 패턴이 유사함. 그러나 EVE는 예측이 없는 지역 존재 (F)인간 포도당 센서인 GCK 3D구조. AM 점수를 빨간색(병원성)-파란색(양성)으로 구조에 표현
      • 촉매 잔류물 Asp 205 (D205)은 가장 높은 순위
      • 리간드(활성 담당)와 직접 접촉하는 다른 잔류물도 유사하게 병원성 존재 
      • MODY(성인 당뇨병)에 비해 비교적 경미한 질병 HH(고인슐린성 저혈당)에 대해서는 benign/ambioug 로 분류하는 경향존재(한계)
      • 근데 어차피 EVE가 예측못한 지역(회색)이 bengin한 지역인걸 봐서는 MAVE 활용의 의미를 잘...
      • AlphaMissense(Spearman correlation: 0.53), outperforming ESM1v, EVE, and ESM1b (Spearman correlation: 0.49, 0.48, and 0.45, respectively; fig. S5B). 다른 모델에 비해 적합도를 잘 포착한다?라고 보기엔 무리가 있지않나?
      •