본문 바로가기

Paper

CNVRuler: a copy number variation-based case–control association analysis tool

2012, oxford academic bioinformatics, 86 citation (6.931)

https://academic.oup.com/bioinformatics/article/28/13/1790/234696

 

CNVRuler: a copy number variation-based case–control association analysis tool

Abstract. Summary: The method for genome-wide association study (GWAS) based on copy number variation (CNV) is not as well established as that for single nucleo

academic.oup.com

Abstract

- CNV기반 GWAS 분석 및 CNV 연구를 위한 여러가지 도구들이 존재한다.

- 하지만 CNV 관련 연구에 필수적인 CNVRs(CNV regions)에 대한 적절한 정의를 제공하지 않는다.

- CNVRuler 를 제안한다.

    - 가장 일반적인 CNV 알고리즘 10개의 결과(output file)를 직접적으로 CNVRuler input file로 사용할 수 있다.

    - 3가지 다른 CNVR에대한 정의를 사용해 결과를 만들어낼 수 있다.

    - 인구 계층화(stratification)를 위한 4가지 통계 연관 테스트 및 옵션을 지원한다.

 

Introduction

Abstract과 동일

 

Methods

Building CNVRs

공통 CNV 영역의 세 가지 다른 정의를 지원한다.

    1. CNVR(병합)

        - CNVR 내 총 기여한 CNV의 10% 미만(optional)이 차지하는 영역은 제거

       - 개별 CNV는 적어도 1 bp 중첩되는 CNV를 덮는 게놈 영역인 CNVR로 병합된다.

(option1) Remove smaller than

(option2) Recurrence : 임계값을 낮추면 더 많은 희소 영역이 제거되고, 임계값을 높이면 더 적은 희소 영역이 제거됩니다.

 

 

 

    2. RO(reciprocal overlap)

         - 공통 CNV 영역은 상호 중첩(reciprocal overlap, RO)을 통해도 결정될 수 dlTek.

         - 50% 이상 중첩된 CNV는 하나로 통합합니다.

    3. 중첩되는 모든 지역을 분할한다.

유효성을 검증 데이터는, 10명의 개인의 Affymetrix SNP array6.0유전자 분석 데이터에서 식별된 CNV, CNVRuler, CONAN을 이용해 정의된 CNVRs이다. 

위 세가지 방법으로 정의된 CNVR은 CONAN에 의해 정의된 CNVR과 100일치한다.

Association analysis

정의된 CNVR과 임상 정보를 사용해 5가지 통계적 검정을 지원한다.

- chi-squared and Fisher's exact tests in addition to logistic and linear regression analyses

CNVRuler의 성능을 검증

- Illumina HumanHap300 BeadChip을 사용하여 서발성 동맥류 출혈 500명의 경우에서 4574개의 CNV 데이터를 적용

- 1843 CNVR, 2211 RO 및 2797 fragment 를 식별함

(CNV 분포가 균일하지 않은 경우 Fragment 알고리즘이 더 적절할 수 있다. 

 

Conclusions

장점:

CNVRuler은 세 가지 다른 CNVR 정의 알고리즘을 지원합니다. 이는 사용자가 자신의 데이터에 가장 적합한 알고리즘을 선택할 수 있도록 합니다.

CNVRuler은 간단한 탭 구분 파일 형식으로 인코딩된 임상 정보를 지원합니다. 이를 사용하여 CNVR과 진단 정보를 연결할 수 있습니다.

CNVRuler은 chi-quared, Fisher's exact test, logistic regression, linear regression 등 다양한 통계 분석 방법을 지원합니다. 사용자는 데이터에 가장 적합한 방법을 선택할 수 있습니다.

CNVRuler은 다중 검정을 위해 FDR (False Discovery Rate) 및 Bonferroni 보정을 지원합니다.

CNVRuler은 population stratification을 위해 주성분 분석 (PCA)을 사용합니다. 이를 통해 사용자는 다른 인구 항목들이 CNVR-표현형 연관 분석에 미치는 영향을 고려할 수 있습니다.

 

(중첩 비율을 수정할 수 없다는 단점이 있으며, 여러 수치로 테스트해볼 수 없다는 점이 아쉽다.

또한 1bp, 50% 이러한 수치가 나의 데이터에 적절하지 않는 값일 수 있기 때문이다.

 

하지만 리눅스기반 소프트웨어도 제공해주기 때문에, 위의 파라메터값을 코드상으로 수정해 실행해 볼 수 있을 것 같다.

 

더불어 여러 통계적 테스트를 제공한다고 하지만, clinical information이 없는 우리 연구에서는 활용성이 떨어진다고 볼 수 있겠다. 따라서 본 연구에서 주장하는 인구의 계층화 분석은 연구에 적용해 보기 어려워 보인다.

단, 우리가 갖고 있는 CNV의 크기, 빈도, CNV  샘플간 유사성과 같은 추가 정보들로 PCA 을 적용해볼 수 있을 것 같긴 하다.