EnsembleCNV: an ensemble machine learning algorithm to identify and genotype copy number variation using SNP array data

Paper

한거루 2025. 1. 28. 19:06

우리의 ensemble method를 어떻게 셀링할지 참고하기 위해

disease/trait와 CNV 연관성이 GWAS로 체계적으로 조사되지않았다. 정확한 도구의 부족으로
ensemble CNV를 제안한다.
- eliminate batch effect
- assemble individual CNV calls into CNV regions from multiple existing callers(PennCNv, QuantiSNP, iPattern)
- re-genotypes each CNVR with local likelihood model
- refines CNVR boundaries
- provides direct CNV genotyping
성능 평가
- 두개의 대규모 데이터 셋에서 high call rate 93.3% , reporducibility 98.6%
- KGP 일반적인 CNV 85%를 포착하여 높은 민감도를 동시에 달성

1. popular CNV detection methods

2. Construction of CNVRs

CNVPs : population 내에서 자주 관찰되고 inheritaed CNVs segrating within pedigrees, 개인간 CNV 지역이 정확히 일치
recurrent CNVRs : CNVPs는 아니지만 빈번히 관찰되는 영역으로, 개인간 CNV지역이 정확하게 일치하지 않으나 상당히 겹친다.
눈 여겨볼 점은 직계정보가 있는 데이터를 사용해, CNVP로 정의하고 맨델오류율(자녀의 CNV상태가 부모의 유전패턴과 불일)과 transimission rate(부모의 CNV가 자녀에게 전달되는 비율)를 분석해 CNV 상태 일관석을 평가하는 기준으로 사용했다.

-> Ensemble CNV 알고리즘 성능에 대한 분석 결과이다.

요약하면 "재현율이 높고, genotyp 정확도가 높고, 민감도 또한 낮지않는, 꽤나 신뢰할만한 알고리즘"이다.

concordance rate : CN=2를 제외한 전체 CNVR 중에서, 여러번 수행중에서 일치하는 CNV status 일치 비율
- for each pair of technical duplicates
- to avoid overestimating
call rate
- quality score 등으로 결정되며, 높은 점수일수록 신뢰할 수 있는 분석이다.
- sample 별로, CNVR 별 call rate( 분포를 보여주고있다.
- 이때 ensembleCNV는 genotype을 직접 구분하고 있어, 보다 더 정밀한 결과를 리포트한다.

유럽인종내에서, allel frequency가 Common >=1% / Rare<1% 에 대하여 각각 호출를 평가했다.
WGS 샘플을 이용했고, 해당 1KGP CNV 결과는 1kb 보다 작을 수 있다.
Rare CNV에서 민감도가 낮은 것은 당연하다.
iPattern을 제외한 나머지 호출 결과는 esnsemble CNV보다 민감하다 at a greater cost of accuracy.
- Fige2 & 3 결과를 바탕으로 accuaracy를 언급하며, 민감하지만 accuracy를 희생했다는 표현을 썻다.
- 그리고 오히려 "CN 일치율(euclidean distance)이 높았다"을 강조했다는 점이 눈여결 볼 점이다.
- 우리 데이터가 민감도와 정확도가 어떻게 되는지 보여줌으로써 어떻게 활용하라고 제안해 볼 수 있겠다.

-> 여기서부터는 FA, STARNET 데이터셋에서 콜링한 CNV 결과가 중요하다는 것을 보여주는 분석 결과이다.

다양한 방법으로 호출된 CNV의 크기와 빈도는 서로 비슷
KGP에서 콜링된 CNV와도 비슷-> 우리도 비슷한지 확인필요(전에 했을때에는 차이가 있었음)
FA 연구에서 모든 CNVR의 84.2%와 91.1%가 각각 1%와 5%의 빈도 미만이었습니다. STARNET 연구에서 모든 CNVR의 83.7%와 93.7%가 각각 1%와 5%의 빈도 미만이었습니다. <- 빈도별 CNVR 비율 확인하여, 이 빈도 스펙트럼은 SNP에서 관찰된 것과 유사(ref 31)하다고 표현함
중요한점은 FA(ensembleCNV에 의한)와 KGP 데이터에서 빈도 ≥1%인 총 1752개와 1948개의 CNVR을 감지할 수 있어 대규모 CNV-GWAS를 수행하는 데 충분한 통계적 능력을 제공한다는 점입니다.<- 위 내용과 연결해서 신뢰있는 정보를 제공한다는 점을 강조하고 있다. 즉, 큰 샘플 크기와 충분히 높은 빈도의 CNVR을 제공하고 있음으로 CNV-GWAS 연구 가능한 신뢰높은 결과를 리포트한다.
FA 및 STARNET 데이터의 CNVR의 63.7%와 43.8%가 각각 20kb 이하였습니다. KGP CNV 데이터 세트에는 크기가 >1Mb인 CNV가 두 개뿐이라는 점에 유의해야 합니다 <- 대부분의 비율을 차지하는 CNVRs length도 확인

해당 데이터세트에서 발견한 CNV의 기능적 중요성을 평가하기 위함
NHGRI-EBI GWAS catalog를 이용하여 CNVR 지역내에 특정 trait과 관련있다고 알려진 SNP를 식별
The top diseases/traits with the most GWAS SNPs affected by CNVs were breast cancer (220 CNV- affected variants), schizophrenia (220 variants), obesity-related traits (213 variants), height (174 variants), and body mass index (170 variants).
변이-형질 연관성에 대한 설득력 있는 증거가 있는 43,927개의 고유한 변이를 보유했습니다. 중요한 점은 GWAS 카탈로그 변이의 23.97%(10,530)가 CNVR(즉, CNVR 경계 내)의 영향을 받았으며, 그 중 2%(881)는 빈번한 CNVR의 영향을 받았고 1.1%(485)는 유전자형이 없는 CNVR의 영향을 받았습니다