Population-genetic nature of copy number variations in the human genome(수정중)
목적 : CNV merge 기준을 확인하기 위함
2010, Human molecular Genetics(oxford journals), 5.121(impact factor)
Population-genetic nature of copy number variations in the human genome
Copy number variations (CNVs) are universal genetic variations, and their association with disease has been increasingly recognized. We designed high-density microarrays for CNVs, and detected 3000–4000 CNVs (4–6% of the genomic sequence) ...
www.ncbi.nlm.nih.gov
Abstract
CNV를 탐지하기 위해 고밀도 microarrays를 설계하여,
작은 크기를 포함하여 인구당 3000-4000개의 CNV(유전체 시퀀스의 4-6%)를 탐지 했다.
확률적 이론을 활용해 CNV의 정수 copy number를 결정
phasing 도구를 이용해 CNV-SNP 유전자형 인구 빈도를 추정
CNV-SNP LD, bi-allelic LD, SNP-SNP LD 조사
detection 방법이 microarray 로써, tool 를 사용한 내 연구와 성격이 맞지 않는 논문이었다.
그러나 논문에서 정의한 CNV region 방법과 통합한 방법 그리고 통계 자료(count, length, frequency, feature, etc)는 정리해둘 필요가 있었다.
Introduction
- 인간 게놈에서 약 5-12%를 차지하는 복사수 변이(CNV)는 표현형적 특징과 질환 발생 가능성에 큰 영향을 준다.
- Affymetrix 500KEA 마이크로어레이를 이용한 HapMap 프로젝트 샘플로부터 global CNV profile이 보고되었다.
- 프로브 밀도가 일정하지 않아 복사수 변화를 정확하게 감지하는 것에 한계 존재
- 샘플의 SNP 유전자형에 따라 신호 강도가 다르다.
- 서로 다른 SNP 유전자형을 가진 샘플의 신호를 비교할 때 최적의 copy number 판단이 되지 않았다(4). 또한, SNP 프로브 설계가 어려운 segmental duplication을 포함하는 염색체 영역에서 프로브 밀도가 낮았다(1,4). 또한, CNV 유전자형을 정확하게 구분하지 못하는 한계(예: 2개의 복사본이 실험적으로 관찰될 때, 1개와 1개 복사본의 유전자형을 0과 2개 복사본 유전자형과 구분하지 못하는 경우)는 CNV의 알렐적 특성을 이해하는 데 어려움을 줄 수 있었다(5), 특히 CNV가 다중 알렐성일 때 더 그랬다. 이전 세대의 플랫폼과 분석 방법은 CNV와 SNP의 연관성을 설명하는 연결 균형(LD)에 대해 상반된 결과를 보고한 것으로, CNV가 강한 LD를 가진다고 보고한 연구도 있었고(2,6-8), 그렇지 않다고 보고한 연구도 있었다(1,9).
Methods
소제목입니다.
method의 원리 및 수식을 이해하고 정리합니다.
(이해를 바탕으로 작성합니다.)
Results
Genomic nature of CNVs
- Using Nsp1.3M arrays, to determine from CEU and YRI samples data.
- use GIM(Genome imbalance map) algorithm, to reduce noise, correct biases arising from probes and restriction enzyme fragments, and normalize the signal intensities.
- array 실험 데이터에서 잡음을 줄이고 편향을 줄이기 위해 사용하는 방법으로, intensity based 선형 모델이다.
- SW-ARRAY, for all the pair-wise signal-intensity ratios
to determine continuous chromosomal segments with CNVs for a single reference sample
- 테스트 샘플과 참조 샘플 간의 신호 강도 비율 계산하여, CNV를 지점과 크기를 계산하는 다이나믹 알고리즘(Smith-Waterman)
https://academic.oup.com/nar/article/33/11/3455/1106282
SW-ARRAY: a dynamic programming solution for the identification of copy-number changes in genomic DNA using array comparative ge
Abstract. Comparative genome hybridization (CGH) to DNA microarrays (array CGH) is a technique capable of detecting deletions and duplications in genomes at hig
academic.oup.com
- 비정상적으로 긴 경우
- 상염색체 염색체에서 sub-microscopic CNV (<3 Mbp)만을 검사
- Using these multiple reference samples, CNV 'segments' and 'regions' 정의
(A) CNV의 정의.
- CNV segment 각 개인(파란색)의 CNV를 가진 염색체 segment입니다.
- CNV 영역은 중첩된 CNV segment의 합집합(빨간색)입니다.
- CNV 이벤트는 시작과 끝 위치가 동일한 CNV segment의 합집합(검은색)입니다.
- CNV fragment는 어떤 CNV segment의 시작과 끝 위치로 분할된 CNV segment의 부분(빨간색 원)입니다.
- CNV fragment site CNV fragment의 합집합(녹색)입니다.
- fragment-segment 비율은 CNV fragment site에서 = CNV fragment 수 / CNV segment 를 가진 개인 수
(B) CNV 영역에서 전형적인 세그먼트 패턴(CEU의 chr 18:45,938,595에서 45,956,033)입니다.
- 빨간색과 네 개의 파란색 선은 각각 영역(17 kb)과 세그먼트를 나타냅니다.
- 대부분의 CNV 영역(89-90%)의 패턴 :
(1) no individual with multiple segments
(2) only one ‘core’ fragment-site = 100% fragment-segment rate
(검증방법)
(1)qPCR
- CNV 세그먼트가 있는 위치와 없는 위치를 모두 포함하는 무작위로 선택된 90개의 염색체 위치에 대한 양적 PCR(qPCR) 실험을 수행
- 93.3%(84/90) 정확도, false positive rate 9.5% (2/21), sensitivity 82.6% (19/23)로 추정
(2) random permutation of the probe data
- ffalse positive rate 약 5-10%이고 sensitivity가 약 70-80%임을 나타냅니다.
(두 인구를 합친 결과)
- 6184개의 CNV 영역을 찾았다. 이전 1081개의 영역(500KEA: 699개, WGTP: 669개)보다 더 많아졌다.
- 유전체 커버리지는 224 Mbp(7.9%)이다. 이전의 253 Mbp(500KEA: 72M, WGTP: 240M)보다 적었습니다.
- 중앙값 CNV 영역 길이는 이전의 162,586 bp(500KEA: 31,367, WGTP: 228,858)보다 짧은 12,700 bp
- CNV 영역 길이(y축)에 따른 frequency(x축) 분포는 지수 분포에 가깝다.
supplementary, 통계 자료 및 시각화 자료를 참고해볼 만 하다:
Conclusions
장,단점을 정리합니다.
(자신의 연구와 어떻게 접목시킬지 생각하며 작성합니다.)