Paper

EnsembleCNV: an ensemble machine learning algorithm to identify and genotype copy number variation using SNP array data

한거루 2025. 1. 28. 19:06

https://academic.oup.com/nar/article/47/7/e39/5306576

 

우리의 ensemble method를 어떻게 셀링할지 참고하기 위해


 

Motivation & Purpose

  • disease/trait와 CNV 연관성이 GWAS로 체계적으로 조사되지않았다. 정확한 도구의 부족으로
  • ensemble CNV를 제안한다.
    • eliminate batch effect
    • assemble individual CNV calls into CNV regions from multiple existing callers(PennCNv, QuantiSNP, iPattern)
    • re-genotypes each CNVR with local likelihood model
    • refines CNVR boundaries
    • provides direct CNV genotyping
  • 성능 평가
    • 두개의 대규모 데이터 셋에서 high call rate 93.3% , reporducibility 98.6%
    • KGP 일반적인 CNV 85%를 포착하여 높은 민감도를 동시에 달성

 

Novelity

  • 생략

Interested in

MATERIALS

  • 데이터셋, 성능 평가용으로 common cnv 데이터셋을 사용하는 것이 돋보임
  • Food allergy(FA) dataset
  • STARNET dataset
  • KGP CNV dataset

METHODS

1. popular CNV detection methods

  • 'initial CNV calls by selected methods' 섹션 내용을 참고해 우리 논문에도 적용해서 작성하면 좋을 것 같다. 
  • combined their discovery sets to boost the sensitivitiy of CNV detection for the initial call set
    • PennCNV
      • further accounts for population frequency of the B allele
    • PennCNV & QuantiSNP
      • a HMM-based approach, which take LRR and BAF
      • individual-wise basis
      • good at calling large rare CNvs
    • iPattern
      • takes normalized intensities from fluorescent measurements of the two alleles of each SNP as input and normalizes the total intensities(reflecting total CN)across individuial
      • better in calling more frequenct CNVs across individuals.
  • 3개의 툴은 각각의 통계적인 요약 데이터(SD of LRR, SD of BF, # of CNVs at sample level)를 제공한다.
  • 해당 지표간의 correlation관계를 확인하여 3 툴간의 높은 correlation이 있음을 확인했다.
  • 이를 이용한 PCA를 진행하여 batch effect를 줄이는 지표로 사용함

 

2. Construction of CNVRs

  • CNVR : 모든 객체, 모든 툴로부터 호출된 CNV로써, 서로 상당히 겹치는 영역이 존재

  • CNVPs : population 내에서 자주 관찰되고 inheritaed CNVs segrating within pedigrees, 개인간 CNV 지역이 정확히 일치
  • recurrent CNVRs : CNVPs는 아니지만 빈번히 관찰되는 영역으로, 개인간 CNV지역이 정확하게 일치하지 않으나 상당히 겹친다.
  • 눈 여겨볼 점은 직계정보가 있는 데이터를 사용해, CNVP로 정의하고 맨델오류율(자녀의 CNV상태가 부모의 유전패턴과 불일)과 transimission rate(부모의 CNV가 자녀에게 전달되는 비율)를 분석해 CNV 상태 일관석을 평가하는 기준으로 사용했다.

RESULTS

-> Ensemble CNV 알고리즘 성능에 대한 분석 결과이다.

요약하면 "재현율이 높고, genotyp 정확도가 높고, 민감도 또한 낮지않는, 꽤나 신뢰할만한 알고리즘"이다.

1. Concordance rate and genotype call rate

  • concordance rate : CN=2를 제외한 전체 CNVR 중에서, 여러번 수행중에서 일치하는 CNV status 일치 비율
    • for each pair of technical duplicates
    • to avoid overestimating
  • call rate
    • quality score 등으로 결정되며, 높은 점수일수록 신뢰할 수 있는 분석이다.
    • sample 별로, CNVR 별 call rate( 분포를 보여주고있다.
    • 이때 ensembleCNV는 genotype을 직접 구분하고 있어, 보다 더 정밀한 결과를 리포트한다.

2. Evaluation with 1KGP data

  • 유럽인종내에서, allel frequency가 Common >=1% / Rare<1% 에 대하여 각각 호출를 평가했다.
  • WGS 샘플을 이용했고, 해당 1KGP CNV 결과는 1kb 보다 작을 수 있다.
  • Rare CNV에서 민감도가 낮은 것은 당연하다.
  • iPattern을 제외한 나머지 호출 결과는 esnsemble CNV보다 민감하다 at a greater cost of accuracy.
    • Fige2 & 3 결과를 바탕으로 accuaracy를 언급하며, 민감하지만 accuracy를 희생했다는 표현을 썻다.
    • 그리고 오히려 "CN 일치율(euclidean distance)이 높았다"을 강조했다는 점이 눈여결 볼 점이다.
    • 우리 데이터가 민감도와 정확도가 어떻게 되는지 보여줌으로써 어떻게 활용하라고 제안해 볼 수 있겠다.

 

 

-> 여기서부터는 FA, STARNET 데이터셋에서 콜링한 CNV 결과가 중요하다는 것을 보여주는 분석 결과이다.

3. Size and frequency distribution of CNVRs

  • 다양한 방법으로 호출된 CNV의 크기와 빈도는 서로 비슷
  • KGP에서 콜링된 CNV와도 비슷-> 우리도 비슷한지 확인필요(전에 했을때에는 차이가 있었음)
  • FA 연구에서 모든 CNVR의 84.2%와 91.1%가 각각 1%와 5%의 빈도 미만이었습니다. STARNET 연구에서 모든 CNVR의 83.7%와 93.7%가 각각 1%와 5%의 빈도 미만이었습니다. <- 빈도별 CNVR 비율 확인하여, 이 빈도 스펙트럼은 SNP에서 관찰된 것과 유사(ref 31)하다고 표현함
  • 중요한점은 FA(ensembleCNV에 의한)와 KGP 데이터에서 빈도 ≥1%인 총 1752개와 1948개의 CNVR을 감지할 수 있어 대규모 CNV-GWAS를 수행하는 데 충분한 통계적 능력을 제공한다는 점입니다.<- 위 내용과 연결해서 신뢰있는 정보를 제공한다는 점을 강조하고 있다. 즉, 큰 샘플 크기와 충분히 높은 빈도의 CNVR을 제공하고 있음으로 CNV-GWAS 연구 가능한 신뢰높은 결과를 리포트한다.
  • FA 및 STARNET 데이터의 CNVR의 63.7%와 43.8%가 각각 20kb 이하였습니다. KGP CNV 데이터 세트에는 크기가 >1Mb인 CNV가 두 개뿐이라는 점에 유의해야 합니다 <- 대부분의 비율을 차지하는 CNVRs length도 확인

4. Functional relevance of CNV

  • 해당 데이터세트에서 발견한 CNV의 기능적 중요성을 평가하기 위함
  • NHGRI-EBI GWAS catalog를 이용하여 CNVR 지역내에 특정 trait과 관련있다고 알려진 SNP를 식별
  • The top diseases/traits with the most GWAS SNPs affected by CNVs were breast cancer (220 CNV- affected variants), schizophrenia (220 variants), obesity-related traits (213 variants), height (174 variants), and body mass index (170 variants).
  • 변이-형질 연관성에 대한 설득력 있는 증거가 있는 43,927개의 고유한 변이를 보유했습니다. 중요한 점은 GWAS 카탈로그 변이의 23.97%(10,530)가 CNVR(즉, CNVR 경계 내)의 영향을 받았으며, 그 중 2%(881)는 빈번한 CNVR의 영향을 받았고 1.1%(485)는 유전자형이 없는 CNVR의 영향을 받았습니다