본문 바로가기

Paper

간단리뷰 Day14. Revisiting genome-wide association studies from statistical modelling to machine learning

Revisiting genome-wide association studies 
from statistical modelling to machine learning

https://academic.oup.com/bib/article/22/4/bbaa263/5943789?login=true

2021, Brefings in Bioinformatics, 43 citation

PRS 공부하는 입장에서 어떻게 통계 모델에서 ML 로 넘어갈 수 있는지 검토해보기 위해 읽게됨.

 

지난 10년간 GWAS는 인간의 복합 질환과 농업적으로(agriculturally) 중요한 특징의 기저를 이루는 몇 천개의 유전적 변이를 발굴해내왔다. 이러한 발견들은 질병의 생물학적 편향을 해부하고, 신약을 개발하며, 정밀의학을 발전시키고, 품종개량을 촉진하는 데 활용되어 왔다. 하지만 GWAS의 잠재력은 방법론적 한계로 여전히 개발의 여지가 남아있다. 여러 가지 도전 과제가 등장했는데, 그 중에는 유전자 간 상호작용(epistasis)와 효과 크기가 매우 작은 SNPs를 검출하는 것, 그리고 LD으로 인해 단순히 통계적으로 연관된 다른 SNP들과실제 인과적 변이(causal variants)를 구별하는 일이 포함된다.

이러한 문제들은 두 가지 대조적인 접근법 - 통계적 모델링과 기계 학습에서의 발전을 촉발시켰다. 본 리뷰에서 이 두 방법의 기본 개념과 각각의 장단점을 체계적으로 정리하고, 그 약점을 보완하기 위한 최근의 시도들을 논의한다. 또한, 소실된 신호, ultrarare 변이와 유전자간 상호작용를 찾아내어 SNP를 우선순위화하기 위한 SOTA 모델을 요약한다. 우리의 연구는 GWAS의 잠재성을 전체적으로 탐구함으로써 GWAS 분석을 위한 그리고 더욱 강력한 새로운 방법을 개발하는 데 있어 이론적이고 실질적인 가이드라인을 제공할 수 있다. 

1. Problem

  • 전통적 통계모델은 단일 snp 테스트( SNP의 유전형-표현형 연관성을 독립적으로 테스트)에 의존하여 유전성 누락
    • 다중 검정 보정(multiple testing correction) 과정에서 작은 효과 크기를 가진 관련 SNP들이 제외되기 때문
    • 유전적 상호작용(epistasis)이 종종 방법론적 한계로 인해 GWAS에서 무시
    • 연관불균형(linkage disequilibrium, LD)으로 인해 단순히 연관되어 있는 유전자들과 실제 인과 유전자(causal genes)를 구별하기 어려움
  • 머신 러닝은 
    • 다중검정 문제가 없다. - 무집단의 분포 지정 및 추정치 평가하거나 귀무가설을 검정할 필요가 없으므로
    • small effect snp 감지에 강력하다 - pengenome snp를 평가하므로
    • 우선순위를 잘 매기더라~
    • 학습 해석 가능성이 낮다

2. Related Work

Statistical modelling

요약: snp을 넣었다 뺐다 하면서 설명력이 좋은 것(r^2)을 고르는 것. 하지만 인과 관계 및 우선순위가 선별이 어려움.

  • Single-SNP test

유전 모델(genetic model)을 미리 정의해 두어야 하며, 이를 통해 각 유전자형(genotype)의 유전 방식 차이를 비교할 수 있다.

예를 들어, 이항성(biallelic) 좌위에서 돌연변이 대립유전자 A(질병 감수성 알렐)와 정상형 G가 있다고 하자.

  • 우성(dominant) 모델에서는 GG, GA, AA 비교가 “GA + AA 대 GG” 비교로 단순화된다.
  • 열성(recessive) 모델에서는 “AA 대 GA + GG”를 비교한다.
  • 공우성(co-dominant) 또는 가산(additive) 모델에서는 GA를 GG와 AA의 중간으로 위치시킨다.(가중합하는 방식이 여기에 속한다.)

일반적인 권고사항은 우선 공우성(co-dominant) 모델로 SNP를 선별한 뒤, 유의미한 SNP에 대해 다른 모든 유전 모델을 적용해 연관성 검정을 수행. 유전 모델을 선택한 이후, 여러 통계적 검정 방법을 사용한다.

  • 카이제곱 검정(chi-squared test),
  • 오즈비 검정(odds ratio test),
  • Fisher의 정확검정(Fisher’s exact test):  카이 제곱 검정과 유사하지만 표본 크기가 작을 때 더 정확
  • Cochran–Armitage trend test: 순서적 효과를 카이 제곱 검정에 통합함. Hardy-Weinberg 평형에서 벗어날 때 더 강력.

양적 표현형(질병 유무가아니라 키, bmi, 혈압 등)을 조사할 때

  • 분산분석(ANOVA),
  • t-검정(t-test) 등

(1) 기본 선형모형 (simple linear model)

y=β0+β1x+ε

(2) SNP을 dummy variable로 확장한 모형

(2)은 biallelic SNP(G/A)를 두 개의 더미변수 x1,x2x_1, x_2로 확장한 선형모형:

y=β0+β1x1+β2x2+ε

(3) 행렬 형태로 표현한 선형모형

Y=Xβ+ε

(4) Ordinary Least Squares (OLS) 추정식

(5) 공변량(covariate)을 포함한 선형모형

SNP 효과 + 공변량(나이, 성별 등):

Y=Xβ+Wu+ε

여기서

  • XβX\beta: SNP 효과
  • WuW u: 공변량 효과

(6) 랜덤효과(유전적 구조)를 포함한 mixed model

(가계/집단 구조, relatedness 보정)

Y=Xβ+Wu+g+ε

여기서

  • g: individuals 간 유전적 유사성을 기반으로 한 random effect
  • population stratification / family relatedness correction 역할

Multi-SNP test

  • Tag SNP + stepwise
    • tag SNP, Lead SNP: LD 기반으로 tag SNP 서브셋 구성(이미 알려진 데이터를 사용함)에서 tag SNP을 하나씩 추가/제거하면서 연관된 집합을 재 구성함. 모델 성능 평가함.  
    • 많은 SNP가 중복되기 때문에 ->  최대 유전 정보를 유지하는 SNP의 대표적인 하위 세트(즉, 태그 SNP)를 선택 절차
    • 피처 셀렉션 방법론과 같음
    • 장점: 구현 간단, 해석 쉬움, 빠른 차원 축소
    • 단점: 과적합 위험, 유전력 경향, 방법간의 태깅 일관성이 좋지 않다.
      • Lead SNP이란 이미 정의된 tag SNP과 다르게 , p-value가 작은 것들의 집합
  • Penalized regressions
    • regluarization term (ridge, lasso, elastic net)을 추가
    • 복잡한 모델(많은 SNP에 의한..)의 overfitting을 피하기 위함.
  • Bayesian methods
    • 공동 효과를 평가하는 유망한 대안이 되었음. 
    • 장점: 다중 검정 문제에서 자유롭다, 작은 효과에 민감, snp 별/credible set 우선순위가 명확
    • 단점: prior 설정의 주관성이 결과에 영향, 표본이 많아야하며 계산비용이 큼

Epistasis identification

  • the effect of a set of two or more genes on a phenotype is unequal to the sum of their independent contributions
  • the joint effect of multiple genes or SNP을 보는 것
  • 고차원에 대해서 표본 파워 부족 -> 피처 축소

Fine-mapping and prioritizing SNPs

  • 기존의 LD 에 의해 단순 공동발현하는 유전자와 관련있는 유전자간의 차이를 구분하기 위함.
  • PIP가 큰 순서로 정렬한뒤 누적 효과를 평가함.
  • 장점: 대표적인것은 찾기 수월하지만
  • 단점: 작은 효과들은 차기 어렵다.

-> 여전히 GWAS를 통해 찾은 SNP 중에서 2%만이 정답이었다. 레퍼런스가 없어서.. FP가 많다 정도록 해석하고 넘어감..

Machine learning

  • Supervised versus unsupervised machine learning
    • GWAS 데이터는 '대조군 대 사례' 또는 '건강군 대 질병군' 표현형 레이블을 사용해 학습
    • 훈련하는 데이터와 테스트하는 데이터간의 동일한 분포가 있다고 암묵적으로 가정함.
      • "인간 유전자 세트 학습 -> 마우스 게놈 예측"에는 적절하지 않을 수 있음.
    • case vs control : 균형을 맞추기위해 PICV를 많이 적용해야된다.
    • random forest: 가지를 랜덤하게 on/off하는 방식의 앙상블 방법론, 고차원에 특화
    • support vector machine (SVM): 사전에 정의하지않고 고차 상호작용을 찾을 수 있다. snp수에 맞게 표본수가 충분해야됨.
    • Bayesian network: svm보다 snp간의 상호작용 확률을 고려할 수 있기에 성능이 높은 편이다. 하지만 prior prob를 알아야된다는 것이 단점(누가 누구의 원인이 되는지 모델 구축 자체가 어렵다.)
    • penalized regressions
  • The basics of machine learning: data, algorithms and model evaluation
    •  질병 진단에서는 recall 이 좋아야되겠지만, gwas에서는 fp 가 많기 때문에 precision 높아야되지않을까?
  • Causal SNP and epistasis identification with the feature selection
    • filtering: 통계적 특성으로 선별, 각 snp을 독립적으로 점수화 후 상위선택,
    • wrapper: 머신러닝이 찾아내는 것, 비용이 많이 들고 복잡하나 선행 모델이 필요
  • Combining machine learning and statistical modelling
    • 머신 러닝 -> 통계 모델
    • 통계 모델 -> 머신러닝
      -> 순서에 대해 둘의 차이는 없더라!

3. Take away

  • 모든 상황에 맞는 단일 방법은 없다.
  • 통계적 모델링과 머신 러닝의 장점을 모두 활용하면 신호가 낮은 SNP와 복잡한 에피스타스를 식별하는 능력이 향상될 수 있다.
  • 생물학적 정보는 중요한 SNP의 우선순위를 정하고 인과 변이를 세부적으로 매핑하는 게 중요하다.

-> 식을 하나하나 보기보다는 큰 원리와 장단점을 정리하는 것이 ..