간단리뷰 Day12. shaPRS: Leveraging shared genetic effects across traits or ancestries improves accuracy of polygenic scores (방법중심으로 다시 보기)

shaPRS: Leveraging shared genetic effects
across traits or ancestries improves accuracy of polygenic scores

https://www.cell.com/ajhg/fulltext/S0002-9297(24)00124-1

2024, AJHG(IF 8), 13 citation

tranfer learning 문제를 어떻게 해결했는지, 기존에 연구된 논문중에 제일 통계가 이해될만해보여서 시작함. ㅠㅠ

1. Problem

최근 연구에 따르면 대부분의 복합질환은 수십만 건에서 수백만 건의 사례가 필요한것으로 밝혀짐. 현재 GWAS의 결과는 부정확해 PRS의 성능이 감소한다고 말하고 있음.
SNP 효과를 정량화하는데 GWAS meta-analysis 도입했으나, 충분한 사례를 확인할 수 없는 유병률이 낮은 질병에 대해서는 여전히 제한적임.
또한 genomics는 diversity에 실패하고있다.(ㅋㅋ표현이 뭔가 너무 직설적이여서 웃겼음.)
2024 the GWAS Diversity Monitor에 포함된 개인의 94.51%가 유럽 조상이라고함.
이런 GWAS의 편향은 다른 인종간의 effect size와 LD구조의 차이를 누락시켜 portability(다른 종간의 이식성)이 낮다고 함.
그럼에도 많은 위험 변이는 다양한 인종간에 공유되는 것으로 여겨진다.

summary

Population이 다르다(예: EUR 기반 PRS를 AFR에 적용하면 -> LD, allele frequency, 효과크기 차이 때문에 PRS 성능이 떨어짐
질병이 유사하지만 동일하진 않다 (예: Crohn vs Ulcerative colitis) -> 일부 SNP은 공유, 일부는 완전히 다름

2. Related Work

Joint modelling of two populations 방식의 기본 아이디어:

Transfer Learning , Transfer shared genetic signals from large European GWAS(Base data)
to non-European populations(Target data)

3. Idea

두 개의 GWAS summary statistics(예: 서로 다른 질병, 또는 서로 다른 ancestry)가 있을 때, 각 SNP마다 공유되는 정도가 다르다는 점을 반영해서 효과크기를 똑똑하게 섞는(blending) 방법을 만든 것.

4. Materials & Methods

두 개의 GWAS 결과가 있다고 하자:
- Proximal dataset = 우리가 PRS를 만들 population (예: 대상 population)
- Adjunct dataset = 공유 정보를 줄 수 있는 보조 데이터 (예: 다른 population/관련 질병)
shaPRS는 각 SNP에 대해:

STEP1. CD vs UC, 또는 EUR vs EAS 사이에서
해당 SNP의 효과크기가 유사한지를 Cochran’s Q test로 검정한다.

Cochran’s Q test

SNP	effect size in GWAS1 (base data)	SE1	effect size in GWAS2 (target data)	SE2
rs123	0.20	0.04	0.05	0.03

귀무가설(H 0 ): 어떤 SNP은 두 연구에서 비슷한 방향/크기 (공유되는 효과)
대안 가설(H a ): 어떤 SNP은 완전히 다름 (dataset마다 다른 효과)

* σ 1 / σ 2 표준오차, 𝜌 는 β 1 과 β 2 상관관계 를 표본 크기의 단순 함수로 추정한것

* 분자: 같은 SNP j에서 두 연구가 추정한 effect size의 불일치 크기
-> 0에 가까울수록 같은 효과를 보인다.
-> 두 데이터가 이질적일 수록 큰 값을 갖는다.

* 분모: 얼마나 신뢰할 수 있는 차이인가?
-> 𝜌 값은cross-trait 인 경우, 즉 같은 집단에서 다른 표현형을 분석하는 경우에 사용됨(CD vs UC)
cross-ancestry 분석(EUR vs EAS)인 경우 0이 되어 분모가 단순화 됨

-> 표준 오차(se)가 작다 -> 해석 신뢰도가 높다 / 크다 -> 불확실하다.
이를 분모에 위치시킴으로써 해석 신뢰도가 높은 것은 값을 올리고, 낮은건 값을 낮추는 효과

계산한 Q를 X^2 (1) 분포에 비교하여 p-value값을 얻음.

Q 크다 → 차이가 크고, 신뢰도 높음 → 이질적
Q 작다 → 차이가 작거나 불확실 → shared 가능성 높음

위 예시의 경우,

STEP2. 이 p-value로 lFDR(local False Discovery Rate)을 계산
→ "이 SNP 효과가 공유될 확률" 로 해석

IFDR 접근법

p-value를 전체 SNP 분포에서 해석하여 확률을 바꾸는 과정

대부분의 SNP가 효과 없음 (H₀ 많음)	p-value가 균등하게 고르게 퍼짐	“신호 없다”	(\pi_0) ↑ 큼 (예: 0.95)
SNP 중 실제 신호(H₁)가 많음	p-value가 0 근처로 몰림	“진짜 유효 signal 많음”	(\pi_0) ↓ 작아짐 (예: 0.60)

STEP 3. SNP별로 효과크기 blending:

p가 크면 → 두 데이터 섞는다 (효과가 공유되는 SNP), pi 커짐
p가 작으면 → proximal 데이터만 사용 (이질적인 SNP), pi가 작아짐

즉, SNP별로 유연하게 combine 하는 방식.

β₁ (proximal effect): target data에서 SNP의 effect size, 보존하고 싶은 값
β₂ (adjunct effect): base data(다른 population 또는 같은 집단내 다른질병을 갖는 결과),
β₁₂ 는 β₁과 β₂를 표준오차(SE)로 가중평균한 “inverse-variance meta-analysis” 효과
정확도가 높은 연구에 가중치를 줌

결과적으로 효과가 shared SNP( pi값이 커짐 ) -> 주로 β₁₂를 사용, 효과가 population-specific( pi 값이 작아짐 ) -> 주로 β₁ 유지

즉, 직접적으로 LD구조나 allele frequency를 사용하지 않음. 하지만 SE에 allel frequency 정보가 반영되어있음.

Xi=allele count for individual i∈{0,1,2}

5. Evaluation & Findings

1) Inflammatory Bowel Disease (Crohn vs UC)shaPRS는 기존 방법보다 PRS 예측력을:

비교 대상CD vs UC

vs 단일 질병 PRS +4% +22%

vs meta-analysis +12% +6%

vs MTAG / SMTPred 모두 shaPRS가 더 우수
→ 두 질병은 절반 정도 유전요인 공유하지만, NOD2 같은 locus는 완전 다름.

2) Cross-ancestry PRS (EAS ↔ EUR, AFR ↔ EUR)

validation genotype 없이도 성능 향상
PRS-CSx처럼 추가 튜닝 데이터 필요 없음
8개 trait 중 6개에서 shaPRS > 기존 방법

→ 특히 AFR, 소수 집단에서 큰 개선 = 건강 형평성 관점에서 중요

6. Take away

저작자표시 (새창열림)

'Paper' 카테고리의 다른 글

간단리뷰 Day15. Pharmacogenomics polygenic risk score for drug response prediction using PRS-PGx methods (evaluation 좀더 볼 것 ) (0)	2025.11.11
간단리뷰 Day14. Revisiting genome-wide association studies from statistical modelling to machine learning (0)	2025.11.11
간단리뷰 Day11. Prefix-Tuning: Optimizing Continuous Prompts for Generation (0)	2025.11.05
간단논문 Day9. GenePT: A Simple But Effective Foundation Modelfor Genes and Cells Built From ChatGPT (0)	2025.11.04
간단리뷰 Day10. Boosting GPT models for genomics analysis: generating trusted genetic variant annotations and interpretations through RAG and Fine-tuning (0)	2025.11.04

Bioinfomatics

간단리뷰 Day12. shaPRS: Leveraging shared genetic effects across traits or ancestries improves accuracy of polygenic scores (방법중심으로 다시 보기)

shaPRS: Leveraging shared genetic effects
across traits or ancestries improves accuracy of polygenic scores

1. Problem

2. Related Work

3. Idea

4. Materials & Methods

5. Evaluation & Findings

1) Inflammatory Bowel Disease (Crohn vs UC)shaPRS는 기존 방법보다 PRS 예측력을:

2) Cross-ancestry PRS (EAS ↔ EUR, AFR ↔ EUR)

6. Take away

'Paper' 카테고리의 다른 글

티스토리툴바

vs 단일 질병 PRS	+4%	+22%
vs meta-analysis	+12%	+6%
vs MTAG / SMTPred	모두 shaPRS가 더 우수

간단리뷰 Day12. shaPRS: Leveraging shared genetic effects across traits or ancestries improves accuracy of polygenic scores (방법중심으로 다시 보기)

shaPRS: Leveraging shared genetic effects across traits or ancestries improves accuracy of polygenic scores

1. Problem

2. Related Work

3. Idea

4. Materials & Methods

5. Evaluation & Findings

1) Inflammatory Bowel Disease (Crohn vs UC)shaPRS는 기존 방법보다 PRS 예측력을:

2) Cross-ancestry PRS (EAS ↔ EUR, AFR ↔ EUR)

6. Take away

'Paper' 카테고리의 다른 글

'Paper' Related Articles

티스토리툴바

shaPRS: Leveraging shared genetic effects
across traits or ancestries improves accuracy of polygenic scores