본문 바로가기

Paper

간단리뷰 Day12. shaPRS: Leveraging shared genetic effects across traits or ancestries improves accuracy of polygenic scores (방법중심으로 다시 보기)

shaPRS: Leveraging shared genetic effects 
across traits or ancestries improves accuracy of polygenic scores

https://www.cell.com/ajhg/fulltext/S0002-9297(24)00124-1

 

2024, AJHG(IF 8), 13 citation

tranfer learning 문제를 어떻게 해결했는지, 기존에 연구된 논문중에 제일 통계가 이해될만해보여서 시작함. ㅠㅠ

1. Problem

  • 최근 연구에 따르면 대부분의 복합질환은 수십만 건에서 수백만 건의 사례가 필요한것으로 밝혀짐. 현재 GWAS의 결과는 부정확해 PRS의 성능이 감소한다고 말하고 있음. 
  • SNP 효과를 정량화하는데 GWAS meta-analysis 도입했으나, 충분한 사례를 확인할 수 없는 유병률이 낮은 질병에 대해서는 여전히 제한적임.
  • 또한 genomics는 diversity에 실패하고있다.(ㅋㅋ표현이 뭔가 너무 직설적이여서 웃겼음.)
    2024 the GWAS Diversity Monitor에 포함된 개인의 94.51%가 유럽 조상이라고함.
    이런 GWAS의 편향은 다른 인종간의 effect size와 LD구조의 차이를 누락시켜 portability(다른 종간의 이식성)이 낮다고 함.
  • 그럼에도 많은 위험 변이는 다양한 인종간에 공유되는 것으로 여겨진다.

summary

  • Population이 다르다(예: EUR 기반 PRS를 AFR에 적용하면 -> LD, allele frequency, 효과크기 차이 때문에 PRS 성능이 떨어짐
  • 질병이 유사하지만 동일하진 않다 (예: Crohn vs Ulcerative colitis) -> 일부 SNP은 공유, 일부는 완전히 다름

2. Related Work

Joint modelling of two populations 방식의 기본 아이디어:

Transfer Learning , Transfer shared genetic signals from large European GWAS(Base data)
to non-European populations(Target data)

3. Idea

  • 두 개의 GWAS summary statistics(예: 서로 다른 질병, 또는 서로 다른 ancestry)가 있을 때, 각 SNP마다 공유되는 정도가 다르다는 점을 반영해서 효과크기를 똑똑하게 섞는(blending) 방법을 만든 것.

4. Materials & Methods

  • 두 개의 GWAS 결과가 있다고 하자:
    • Proximal dataset = 우리가 PRS를 만들 population (예: 대상 population)
    • Adjunct dataset = 공유 정보를 줄 수 있는 보조 데이터 (예: 다른 population/관련 질병)
    shaPRS는 각 SNP에 대해:

STEP1. CD vs UC, 또는 EUR vs EAS 사이에서
해당 SNP의 효과크기가 유사한지Cochran’s Q test로 검정한다.

더보기
Cochran’s Q test


SNP effect size in GWAS1 (base data) SE1 effect size in GWAS2 (target data) SE2
rs123 0.20 0.04 0.05 0.03

귀무가설(H 0 ): 어떤 SNP은 두 연구에서 비슷한 방향/크기 (공유되는 효과)
대안 가설(H a ): 어떤 SNP은 완전히 다름 (dataset마다 다른 효과)


* σ 1 / σ 2 표준오차, 𝜌β 1 β 2 상관관계 를 표본 크기의 단순 함수로 추정한것

* 분자: 같은 SNP j에서 두 연구가 추정한 effect size의 불일치 크기
        -> 0에 가까울수록 같은 효과를 보인다.
        -> 두 데이터가 이질적일 수록 큰 값을 갖는다.

* 분모: 얼마나 신뢰할 수 있는 차이인가?
        -> 𝜌 값은cross-trait 인 경우, 즉 같은 집단에서 다른 표현형을 분석하는 경우에 사용됨(CD vs UC)
                       cross-ancestry 분석(EUR vs EAS)인 경우 0이 되어 분모가 단순화 됨

       -> 표준 오차(se)가 작다 -> 해석 신뢰도가 높다 / 크다 -> 불확실하다.
            이를 분모에 위치시킴으로써 해석 신뢰도가 높은 것은 값을 올리고, 낮은건 값을 낮추는 효과

계산한 Q를 X^2 (1) 분포에 비교하여 p-value값을 얻음.

  • Q 크다 → 차이가 크고, 신뢰도 높음 → 이질적
  • Q 작다 → 차이가 작거나 불확실 → shared 가능성 높음

위 예시의 경우,

 

 

STEP2. 이 p-value로 lFDR(local False Discovery Rate)을 계산
"이 SNP 효과가 공유될 확률" 로 해석

  • 더보기
    IFDR 접근법
    p-value를 전체 SNP 분포에서 해석하여 확률을 바꾸는 과정

    대부분의 SNP가 효과 없음 (H₀ 많음) p-value가 균등하게 고르게 퍼짐 “신호 없다” (\pi_0) ↑ 큼 (예: 0.95)
    SNP 중 실제 신호(H₁)가 많음 p-value가 0 근처로 몰림 “진짜 유효 signal 많음” (\pi_0) ↓ 작아짐 (예: 0.60)
     

STEP 3. SNP별로 효과크기 blending:

  1. p가 크면 → 두 데이터 섞는다 (효과가 공유되는 SNP), pi 커짐
  2. p가 작으면 → proximal 데이터만 사용 (이질적인 SNP), pi가 작아짐
  • 즉, SNP별로 유연하게 combine 하는 방식.

  • β₁ (proximal effect): target data에서 SNP의 effect size, 보존하고 싶은 값
  • β₂ (adjunct effect): base data(다른 population 또는 같은 집단내 다른질병을 갖는 결과), 
  • β₁₂ 는 β₁과 β₂를 표준오차(SE)로 가중평균한 “inverse-variance meta-analysis” 효과
    정확도가 높은 연구에 가중치를 줌

결과적으로 효과가 shared SNP( pi값이 커짐 ) -> 주로 β₁₂를 사용, 효과가 population-specific( pi 값이 작아짐 ) -> 주로 β₁ 유지

 

즉, 직접적으로 LD구조나 allele frequency를 사용하지 않음. 하지만 SE에 allel frequency 정보가 반영되어있음.

Xi=allele count for individual i{0,1,2}

5. Evaluation & Findings

1) Inflammatory Bowel Disease (Crohn vs UC)shaPRS는 기존 방법보다 PRS 예측력을:

  • 비교 대상CD vs UC 
    vs 단일 질병 PRS +4% +22%
    vs meta-analysis +12% +6%
    vs MTAG / SMTPred 모두 shaPRS가 더 우수  
  • → 두 질병은 절반 정도 유전요인 공유하지만, NOD2 같은 locus는 완전 다름.

2) Cross-ancestry PRS (EAS ↔ EUR, AFR ↔ EUR)

  • validation genotype 없이도 성능 향상
  • PRS-CSx처럼 추가 튜닝 데이터 필요 없음
  • 8개 trait 중 6개에서 shaPRS > 기존 방법

→ 특히 AFR, 소수 집단에서 큰 개선 = 건강 형평성 관점에서 중요

6. Take away

  •