논문 읽은 목적 :
- 1000Genome Project 라는 대구묘 데이터를 어떻게 시각화하고, 통계를 냈는지 알아보기위해.
- 더불어서 어떻게 common varation으로 정의했는지 방법을 확인하고 접목하고자 함
2015, Nature, 12,322 citation
A global reference for human genetic variation
The 1000 Genomes Project set out to provide a comprehensive description of common human genetic variation by applying whole-genome sequencing to a diverse set of individuals from multiple populations. Here we report completion of the project, having recons
www.ncbi.nlm.nih.gov
Abstract
1000 Genomes Project 로부터 low-coverage WGS, deep exome sequencing and dense microarray genotyping 데이터를 조합하여 26개 인구에서 2,504명의 개인 게놈의 변이를 분석합니다. 총 8,800만 개 이상의 변이(8,470만 개의 SNP, 360만 개의 short insertions/deletions(indels), 6만개의 SV)를 특성화했습니다.
Introduction
1000 Genomes Project 의의
- common와 rare variation의 특성과 분포를 밝히고 유전적 다양성을 형성하는 과정에 대한 통찰력을 제공함으로써
- disease biology에 대한 심층적 이해를 도왔다.
본 연구 요약
- In this final phase, individuals were sampled from 26 populations.
- All individuals were sequenced using both whole-genome sequencing (mean depth = 7.4×) and targeted exome sequencing (mean depth = 65.7×).
- In addition, individuals and available first-degree relatives (generally, adult offspring) were genotyped using high-density SNP microarrays.
Methods & Materials
Data set overview
- bi-allelic events, multi-allelic SNPs, indels, and a diverse set of structural variants (SVs) 를 모두 포함한 분석
- summary of the callset generation pipeline :
- 샘플 수집, 데이터 생성, 데이터 처리 및 분석은 아래 파이프라인 참고
- 24개의 variatn calling tool를 앙상블과 기계 학습 분류기를 사용
- 잠재적 FP으로부터 high-quality variants를 분류함으로써
- sensitivity and specificity의 균형을 맞취기 위함
- long-range phased haplotype을 추정함
- 한 부모로부터 유전되면서, 동일한 염색체내에서 장거리에 걸쳐 함께 유전되는 대립유전자의 집합
- 참여자와 그들의 친척(가능한경우)의 haplotype으로부터 long-range phased haplotype을 추정한다.
- 목적 : 보다 정확한 variatn structure를 구성하기 위함이다.
다시말해 다양한 유형의 유전적 변이를 구분하여 유전 변이 데이터의 해상도를 높인다는 것이다. 더불어 위양성 변이율을 낮추는데 기여한다.
- 다만 Linkage Disequilibrium(LD) block 추정과 헷갈리지 말아야한다. long-range phased haplotyp을 식별하는 동안 LD 블록을 식별하는 데 도움이 될 수 있지만 두 개념은 서로 바꿔서 사용할 수 없다.
- 정리하면, 함께 유전되는 발현 패턴을 LD block 단위로 보는 것과 다르게 long-range phased haplotyp은 보다 구체적으로 haplotype간의 유전 패턴과 서열을 알 수 있다.
- 혈통 정보없이도 long-range phased haplotype을 추정하는 알고리즘이 존재한다.
A combined long-range phasing and long haplotype imputation method to impute phase for SNP genotypes - Genetics Selection Evolut
Background Knowing the phase of marker genotype data can be useful in genome-wide association studies, because it makes it possible to use analysis frameworks that account for identity by descent or parent of origin of alleles and it can lead to a large in
gsejournal.biomedcentral.com
- 유의미한 결과 요약
- dbSNP catalog 내 1억개의 변이 중 8000만 개를 기여하거나 검증했다.
(기여하다= 새로운 변이를 추가하다, 검증하다 = 찾은 변이가 기존에 존재했다.)
- 새로 찾은 변이 중 28%는 남아시안 및 아프리카의 인구 내 변이로써, dbSNP catalog 내 다양성을 높임
- 위양성을 낮추기 위해 SV의 경우, 1차 분석을 통해 확인된 구조 변이의 존재를 확인하기 위한 직교 방법(=교차 검증)으로 마이크로어레이와 long-read sequencing 데이터를 이용했다.
- resulting in FDR < 5% for deletions, duplications
Supplemetary Materials
5.3 Mergin SV callsets
- 신뢰도가 높은 large deletion sites를 만들기 위해 저자는 GenomeSTRiP 도구를 사용하여 5가지 삭제 검색 알고리즘(BreakDancer, DELLY, CNVnator, GenomeSTRiP 및 VariationHunter)으로 식별된 사이트를 다시 유전자형 지정했습니다. 그런 다음 GenomeSTRiP 도구를 사용하여 이러한 사이트를 신뢰할 수 있는large deletion sites의 일관된 목록으로 병합하고 더 엄격한 프로토콜을 사용하여 중복 호출 사이트를 추가로 줄였습니다
- 이 삭제 목록은 SNP 및 이중 대립유전자 결손과 함께 SHAPEIT2를 사용한 일배체형 스캐폴드 생성에 사용되었습니다
- 마지막으로, 다른 모든 SV 콜셋은 MVNcall을 사용하여 이러한 일배체형 스캐폴드로 단계적으로 진행되었습니다.
여기서, GenomeSTRiP 도구가 통합을 위한 핵심이다.
이 도구는 시퀀싱 데이터를 사용해 구조적 변이를 발견한다. 더불어 여러 개인의 데이터를 사용해 공유 변이를 감지하도록 설계되었다. 논문에서는 False discovery rate를 더 줄이기 위해 사용되었다.
참고:
-Large multiallelic copy number variations in humans
-Discovery and genotyping of genome structural polymorphism by sequencing on a population scale
5.5.2 Filtering of SV
- 중복 호출을 제거하기위해 SV의 통합 및 필터링을 진행
- FDR <5% 필터링
- CNV를 biallelic deletions (DEL), biallelic duplications (DUP)및 multiallelic copy-number variants (mCNV)으로 분류했습니다.
- 이때, 최소 상호 중첩이 71%이고, 비 참조 복사 번호 일치가 71%을 가진 CNV들을 하나의 CNV로 merge
- 중첩 그래프를 사용하여 병합했습니다. 작성자는 연결된 각 구성 요소에 대해 대표적인 호출을 하나씩 선택했으며
- 모든 병합된 호출은 VCF INFO 열에 지정되었습니다. 선택된 컷오프는 겹침 그래프에서 연결된 모든 성분의 99% 이상이 결벽임을 보장합니다.
Putatively functional variation
(생략)
Results
A typical genome
- 전형적인 게놈이 410만 ~ 500만 site가 참조 인간 게놈과 다르다는 것을 발견
- variants 99.9% 이상이 SNP와 짧은 삽입결실로 구성되어 있지만 SV가 더 많은 염기에 영향을 미친다.
- 일반적인 게놈에는 약 2,100~2,500개의 구조적 변이체가 있으며, 약 2천만 개의 서열 염기서열에 영향
- ~1,000개의 large deletions, ~160개의 copy-number variants, ~915개의 Alu insertion, ~128개의 L1 insertion, ~51 SVA insertions, ~4 NUMT, ~10 inversions
- 대부분의 변이는 rare
- 약 6,400만 개의 상염색체 변이는 빈도가 0.5% 미만이고,
약 1,200만 개는 빈도가 0.5%에서 5% 사이이며,
약 800만 개만이 빈도가 >5%이다.
- 그럼에도 불구하고 단일 게놈에서 관찰되는 대부분의 변이는 공통적이다.
- 일반적인 게놈에서 변이 중 40,000~200,000개(1~4%)만이 0.5% 미만의 빈도를 가진다.
Putatively functional variation
- 유전자 기능에 가장 영향을 미칠 가능성이 있는 변이를 "protein truncating variants(PTV)","peptide-sequence-altering variants(내 맘대루 PSAV)","variants sites on regulatory region(내 맘대루 VR)(=UTRS, promoters, insulators, enhancers and transcription factor binding sites)"으로 정의함.
- PTV는 149 ~ 182개,PSAV는 10,000 ~ 12,000개, VR은 459,000 ~ 565,000개의 변이를 찾아냄
- GWAS 및 ClinVar를 통해 각 게놈의 질병 또는 표현형과 관련된 대립 유전자의 수를 비교함
- 24~30개의 variant-phenotype(ClinVar) 패턴을 찾음
- 약 2,000개의 variant-disease(GWAS) 패턴을 찾음
- 본 연구에서 찾은 새로운 아프리카 인종내 변이는 위의 패턴을 찾기 어려움
- 반면 유럽 조상 게놈에서 패턴을 많이 찾을 수 있었음
- 즉, 현재 유전학 연구가 민족 편향이 존재함을 의미한다.
- 비유럽 대립 유전자의 임상 및 표현형 결과의 개선된 특성화가 모든 개인 및 집단의 게놈을 더 잘 해석할 수 있을 것이다.
Sharing of genetic variants among populations
- 유전적 변이가 개인과 집단 간에 어떻게 공유되는지, 그리고 이것이 어떻게 집단 역사에 대한 통찰력을 제공할 수 있는지에 대해 논의하는 글이다.
- common variant는 전 세계적으로 공유되지만, rare variant는 밀접하게 관련된 인구로 제한되는 경향이 있다.
- 인구에 제한적인 변이에 대한 설명을 덧붙이자면, 전체 변이 중 86% 는 대륙의 고유 변이이다.
- 즉, 대부분의 희귀 변이는 대륙단위로 인종 단위로 고유하다.
- f2 variant 는 단지 두 크로모좀에서 발견된 희귀 변이로서, 굉장히 제한되어있을 것이다.
- 저자는 각 genome의 비율을 추정하기 위해 the maximum likelihood approach를 사용했다.
- 서로 다른 조상 개체군에서 파생된 각 게놈 = 다른 조상 집단(다른 대륙과 인종)에서 파생된 각 개인의 게놈
- 최대 우도 접근법은 일반적으로 인구 유전학에서 다양한 시나리오에서 특정 유전 데이터를 관찰할 가능성을 추정하는 데 사용됩니다.
- 이 경우, 특정 유전자 변이체가 다른 모집단에서 관찰된 빈도를 고려할 때 특정 조상 집단에서 유래했을 확률을 계산합니다.
- 결국, 서로 다른 조상 모델의 가능성을 비교함으로써, 각 모집단에서 파생된 조상의 비율을 추정할 수 있고. 추정한 값으로부터 대륙 그룹 내의 내부 하위 구조를 강조하고(=대륙 내 혹은 대륙간 고유한 패턴을 찾고) 관련 개체군 간의 유전적 유사성을 밝히는 데(=대륙 내 혹은 대륙간 공유하는 패턴을 찾고) 도움이 되는 방법을 설명합니다.
- 즉 콜링한 변이를 통합한뒤,
최대 우도 접근법으로 대륙 내 혹은 대륙간 변이가 관찰될 확률을 추정함으로써
"특정 인구에서 고유한" 변이 혹은 "대륙 전체에서 공유" 변이를 찾아냅니다.
Figure 2.a
- 개인 genome 내 변이을 8개의 집단으로 그룹화 했을 때, 각 그룹에 대한 비율을 시각화한 것이다.
- 이때, 이 그룹은 결국 다른 조상으로부터 파생된 것을 의미한다.
- x축은 샘플 수, 더 정확히는 모집단(모든 대륙, 인종)의 총 개인을 의미한다.
- y축은 각 개인의 게놈의 추정 비율이다.
Figure 2.b
- 시간에 따른 인구 집단의 크기를 시각화한 것이다.
- 서로 다른 조상 집단간의 역사적 관계 및 분기/혼합에 대한 통찰력을 제공할 수 있습니다.
- pairwise sequentially Markovian coalescent (PSMC)를 사용
Insights about demography
(생략)
Sharing of haplotypes and imputation
(생략)
Resolution of genetic association studies
(생략)
Conclusions
- 1000 게놈 프로젝트 과정에서 시퀀스 데이터 생성, 보관 및 분석에 상당한 발전이 있었다.
- 기본 시퀀스 데이터 생성의 개선 : 읽기 길이 및 깊이 증가, 기본 오류 감소, 페어드 엔드 시퀀싱 도입되었다.
- 시퀀스 분석 방법의 개선 : 열악한 데이터 식별 및 필터링, 보다 정확한 시퀀스 판독 매핑(특히 반복 영역에서), 분석 도구 간 데이터 교환 및 앙상블 분석 활성화, 보다 다양한 유형의 데이터 캡처가 가능해졌다.
- 많은 수의 개인을 검사한 결과를 공개함으로써, 유전자형 분석 중에 공유 일배체형을 식별하고 활용하는 인구 기반 분석이 가능해졌다.
- 본 연구는 몇 가지 제한점이 있다.
- 구조적 변화를 정확하게 포착하는 능력은 여전히 제한적이다.
- 시퀀싱, 분석 및 필터링 전략을 보다 진화시켰지만, 분석 결과가 이전의 분석보다 진화되었다는 것은 아니다.
- 160만 개는 빈도가 0.5% 미만이었고 현재 판독 세트에서 누락되었을 수 있으며 나머지는 필터링 프로세스에 의해 제거되었다.
- 연구 의의
- 1000개의 게놈 프로젝트 샘플은 인간의 유전적 변이에 대한 광범위한 표현을 제공한다.
- 유럽 조상 샘플을 연구하는 기존의 연구와 대조적이며, 다른 인구에서 기능적으로 중요한 변이를 포착할 수 있게 되었다.
- 여러 분석 전략, 호출 세트 및 변형 유형을 통합한 앙상블 분석 방법을 사용했다.
- 벤치마크보다 실용적인 분석 전략을 평가할 수 있는 척도를 제공할 수 있게 된다.
- 샘플과 생성된 데이터가 광범위한 사용자에게 제공한다.
- 공통 벤치마크 샘플 세트를 사용하여 시퀀싱 전략과 분석 방법을 쉽게 비교할 수 있다
- 결국, 샘플과 데이터의 광범위한 가용성은 다양한 분자 표현 유형을 조사하는 데 사용된다.
- 이는 유전자 변형과 분자 및 질병 관련 표현 유형 사이의 연결을 쉽게 식별할 수 있는 다양한 데이터 유형을 축적에 기여할 수 있다.