tranfer learning 문제를 어떻게 해결했는지, 기존에 연구된 논문중에 제일 통계가 이해될만해보여서 시작함. ㅠㅠ
1. Problem
최근 연구에 따르면 대부분의 복합질환은 수십만 건에서 수백만 건의 사례가 필요한것으로 밝혀짐. 현재 GWAS의 결과는 부정확해 PRS의 성능이 감소한다고 말하고 있음.
SNP 효과를 정량화하는데 GWAS meta-analysis 도입했으나, 충분한 사례를 확인할 수 없는 유병률이 낮은 질병에 대해서는 여전히 제한적임.
또한 genomics는 diversity에 실패하고있다.(ㅋㅋ표현이 뭔가 너무 직설적이여서 웃겼음.) 2024 the GWAS Diversity Monitor에 포함된 개인의 94.51%가 유럽 조상이라고함. 이런 GWAS의 편향은 다른 인종간의 effect size와 LD구조의 차이를 누락시켜 portability(다른 종간의 이식성)이 낮다고 함.
그럼에도 많은 위험 변이는 다양한 인종간에 공유되는 것으로 여겨진다.
summary
Population이 다르다(예: EUR 기반 PRS를 AFR에 적용하면 -> LD, allele frequency, 효과크기 차이 때문에 PRS 성능이 떨어짐
질병이 유사하지만 동일하진 않다 (예: Crohn vs Ulcerative colitis) -> 일부 SNP은 공유, 일부는 완전히 다름
2. Related Work
Joint modelling of two populations 방식의 기본 아이디어:
Transfer Learning , Transfer shared genetic signals from large European GWAS(Base data) to non-European populations(Target data)
3. Idea
두 개의 GWAS summary statistics(예: 서로 다른 질병, 또는 서로 다른 ancestry)가 있을 때, 각 SNP마다 공유되는 정도가 다르다는 점을 반영해서 효과크기를 똑똑하게 섞는(blending) 방법을 만든 것.
4. Materials & Methods
두 개의 GWAS 결과가 있다고 하자:
Proximal dataset = 우리가 PRS를 만들 population (예: 대상 population)
Adjunct dataset = 공유 정보를 줄 수 있는 보조 데이터 (예: 다른 population/관련 질병)
shaPRS는 각 SNP에 대해:
STEP1. CD vs UC, 또는 EUR vs EAS 사이에서 해당 SNP의 효과크기가 유사한지를 Cochran’s Q test로 검정한다.