Paper
EnsembleCNV: an ensemble machine learning algorithm to identify and genotype copy number variation using SNP array data
한거루
2025. 1. 28. 19:06
https://academic.oup.com/nar/article/47/7/e39/5306576
우리의 ensemble method를 어떻게 셀링할지 참고하기 위해
Motivation & Purpose
- disease/trait와 CNV 연관성이 GWAS로 체계적으로 조사되지않았다. 정확한 도구의 부족으로
- ensemble CNV를 제안한다.
- eliminate batch effect
- assemble individual CNV calls into CNV regions from multiple existing callers(PennCNv, QuantiSNP, iPattern)
- re-genotypes each CNVR with local likelihood model
- refines CNVR boundaries
- provides direct CNV genotyping
- 성능 평가
- 두개의 대규모 데이터 셋에서 high call rate 93.3% , reporducibility 98.6%
- KGP 일반적인 CNV 85%를 포착하여 높은 민감도를 동시에 달성
Novelity
- 생략
Interested in
MATERIALS
- 데이터셋, 성능 평가용으로 common cnv 데이터셋을 사용하는 것이 돋보임
- Food allergy(FA) dataset
- STARNET dataset
- KGP CNV dataset
METHODS
1. popular CNV detection methods
- 'initial CNV calls by selected methods' 섹션 내용을 참고해 우리 논문에도 적용해서 작성하면 좋을 것 같다.
- combined their discovery sets to boost the sensitivitiy of CNV detection for the initial call set
- PennCNV
- further accounts for population frequency of the B allele
- PennCNV & QuantiSNP
- a HMM-based approach, which take LRR and BAF
- individual-wise basis
- good at calling large rare CNvs
- iPattern
- takes normalized intensities from fluorescent measurements of the two alleles of each SNP as input and normalizes the total intensities(reflecting total CN)across individuial
- better in calling more frequenct CNVs across individuals.
- PennCNV
- 3개의 툴은 각각의 통계적인 요약 데이터(SD of LRR, SD of BF, # of CNVs at sample level)를 제공한다.
- 해당 지표간의 correlation관계를 확인하여 3 툴간의 높은 correlation이 있음을 확인했다.
- 이를 이용한 PCA를 진행하여 batch effect를 줄이는 지표로 사용함
2. Construction of CNVRs
- CNVR : 모든 객체, 모든 툴로부터 호출된 CNV로써, 서로 상당히 겹치는 영역이 존재
- CNVPs : population 내에서 자주 관찰되고 inheritaed CNVs segrating within pedigrees, 개인간 CNV 지역이 정확히 일치
- recurrent CNVRs : CNVPs는 아니지만 빈번히 관찰되는 영역으로, 개인간 CNV지역이 정확하게 일치하지 않으나 상당히 겹친다.
- 눈 여겨볼 점은 직계정보가 있는 데이터를 사용해, CNVP로 정의하고 맨델오류율(자녀의 CNV상태가 부모의 유전패턴과 불일)과 transimission rate(부모의 CNV가 자녀에게 전달되는 비율)를 분석해 CNV 상태 일관석을 평가하는 기준으로 사용했다.
RESULTS
-> Ensemble CNV 알고리즘 성능에 대한 분석 결과이다.
요약하면 "재현율이 높고, genotyp 정확도가 높고, 민감도 또한 낮지않는, 꽤나 신뢰할만한 알고리즘"이다.
1. Concordance rate and genotype call rate
- concordance rate : CN=2를 제외한 전체 CNVR 중에서, 여러번 수행중에서 일치하는 CNV status 일치 비율
- for each pair of technical duplicates
- to avoid overestimating
- call rate
- quality score 등으로 결정되며, 높은 점수일수록 신뢰할 수 있는 분석이다.
- sample 별로, CNVR 별 call rate( 분포를 보여주고있다.
- 이때 ensembleCNV는 genotype을 직접 구분하고 있어, 보다 더 정밀한 결과를 리포트한다.
2. Evaluation with 1KGP data
- 유럽인종내에서, allel frequency가 Common >=1% / Rare<1% 에 대하여 각각 호출를 평가했다.
- WGS 샘플을 이용했고, 해당 1KGP CNV 결과는 1kb 보다 작을 수 있다.
- Rare CNV에서 민감도가 낮은 것은 당연하다.
- iPattern을 제외한 나머지 호출 결과는 esnsemble CNV보다 민감하다 at a greater cost of accuracy.
- Fige2 & 3 결과를 바탕으로 accuaracy를 언급하며, 민감하지만 accuracy를 희생했다는 표현을 썻다.
- 그리고 오히려 "CN 일치율(euclidean distance)이 높았다"을 강조했다는 점이 눈여결 볼 점이다.
- 우리 데이터가 민감도와 정확도가 어떻게 되는지 보여줌으로써 어떻게 활용하라고 제안해 볼 수 있겠다.
-> 여기서부터는 FA, STARNET 데이터셋에서 콜링한 CNV 결과가 중요하다는 것을 보여주는 분석 결과이다.
3. Size and frequency distribution of CNVRs
- 다양한 방법으로 호출된 CNV의 크기와 빈도는 서로 비슷
- KGP에서 콜링된 CNV와도 비슷-> 우리도 비슷한지 확인필요(전에 했을때에는 차이가 있었음)
- FA 연구에서 모든 CNVR의 84.2%와 91.1%가 각각 1%와 5%의 빈도 미만이었습니다. STARNET 연구에서 모든 CNVR의 83.7%와 93.7%가 각각 1%와 5%의 빈도 미만이었습니다. <- 빈도별 CNVR 비율 확인하여, 이 빈도 스펙트럼은 SNP에서 관찰된 것과 유사(ref 31)하다고 표현함
- 중요한점은 FA(ensembleCNV에 의한)와 KGP 데이터에서 빈도 ≥1%인 총 1752개와 1948개의 CNVR을 감지할 수 있어 대규모 CNV-GWAS를 수행하는 데 충분한 통계적 능력을 제공한다는 점입니다.<- 위 내용과 연결해서 신뢰있는 정보를 제공한다는 점을 강조하고 있다. 즉, 큰 샘플 크기와 충분히 높은 빈도의 CNVR을 제공하고 있음으로 CNV-GWAS 연구 가능한 신뢰높은 결과를 리포트한다.
- FA 및 STARNET 데이터의 CNVR의 63.7%와 43.8%가 각각 20kb 이하였습니다. KGP CNV 데이터 세트에는 크기가 >1Mb인 CNV가 두 개뿐이라는 점에 유의해야 합니다 <- 대부분의 비율을 차지하는 CNVRs length도 확인
4. Functional relevance of CNV
- 해당 데이터세트에서 발견한 CNV의 기능적 중요성을 평가하기 위함
- NHGRI-EBI GWAS catalog를 이용하여 CNVR 지역내에 특정 trait과 관련있다고 알려진 SNP를 식별
- The top diseases/traits with the most GWAS SNPs affected by CNVs were breast cancer (220 CNV- affected variants), schizophrenia (220 variants), obesity-related traits (213 variants), height (174 variants), and body mass index (170 variants).
- 변이-형질 연관성에 대한 설득력 있는 증거가 있는 43,927개의 고유한 변이를 보유했습니다. 중요한 점은 GWAS 카탈로그 변이의 23.97%(10,530)가 CNVR(즉, CNVR 경계 내)의 영향을 받았으며, 그 중 2%(881)는 빈번한 CNVR의 영향을 받았고 1.1%(485)는 유전자형이 없는 CNVR의 영향을 받았습니다