본문 바로가기

Paper

1000 Genome Project 샘플을 이용한 지리적 계층화가 나타난 논문정리

1. Genetic factors affecting EBV copy number in lymphoblastoid cell lines derived from the 1000 Genome Project samples

해당 논문은 환경적 + 유전적 요인의 영향을 받는 EBV 관련 프로세스에 영향을 미치는 잠재적 유전자를 조사한 논문이다.

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0179446

 

Genetic factors affecting EBV copy number in lymphoblastoid cell lines derived from the 1000 Genome Project samples

Epstein-Barr virus (EBV), human herpes virus 4, has been classically associated with infectious mononucleosis, multiple sclerosis and several types of cancers. Many of these diseases show marked geographical differences in prevalence, which points to under

journals.plos.org

 

에프스타인-바 바이러스(EBV)의 복사본 수는 림프구성 세포주(LCL)에서 개체 간에 차이가 날 수 있다.(

해당 EBV는 비인두암(Nasopharyngeal Carcinoma, NPC)과 버킷 림프종(Burkitt Lymphoma, BL)을 포함한 1% 암과 면역 질환과 관련이 있다고 알려져있다.

BL은 아프리카에서 NPC는 아시아에서 흔하게 발견되는 것과 같이, EBV 관련 질병은 지역에 따른 유병률에 현저한 차이가 있다.

 

EBV 감염 개체의 전체 유전체 데이터가 부족해 virome-wide association analysis는 불가능하나

이미, 건강한 개체 데이터를 이용해 EBV 변이성이 지리적 계층화가 나타났다고 보고된바가 있다.[ref 6]

(ref6 : 1000 genome project 데이터를 이용해 건강한 개인의 LCL에서 EBV 유전체를 재구성하고, 이를 기존의 병원성 EBV 유전체와 비교한 결과 PCA 분석에서 아프리카와 아시아 유래 균주 간의 구분이 가능했으며, 계통 분석에서도 유전적 거리가 멀다는 것을 확인함.)

 

1-1. 인종별로 대륙별로 copy number 수를 비교한 것이 인상적이었다.

그러나, europe 에서 IBS, CEU 집단에서 튀는 것 외에는 딱히 다른 패턴을 확인할 수 없었다.

대륙별 패턴은 없고,  집단간 차이가 자잘히 있는 것을 확인할 수 있다. 

(merge 데이터로 보기는 어렵고, population 별 분석한 cn.mops 결과데이터로 한번 확인해볼까..)

-> 혹은 빈도별로 나눠서 패턴을 보는 방법이 있음..

 

(왼쪽) x축 대륙/인종, y축 EBV copy number per LCL, (오른쪽) 개인 샘플간 copy number 비교

 

1-2. 대륙별 유의미한 EBV연관성 유전자/변이가 다르게 나타나는게 인상적이다. 

position그림과 p-value를 같이 보여준 그림은 참고할만하다.

 

1-3. VEGAS2 이용해 EBV copy number와 연관성에 대한 유전자 기반 척도를 얻었다. 

input 값이 GWAS output 데이터라는데, 지금은 웹사이트가 들어가지지않는다. 해당 데이터를 쓰고싶은데 bed 파일로는 안된다고..

VEGAS2를 통해 얻은 유전자를 바탕으로 GORILLA 를 이용해 GO enrichment 시각화한 방법 인상적

 

2. Copy Number Variation across European Populations

유럽 내 세 가지 인구 집단(크로아티아의 비스 섬, 스코틀랜드의 오크니 제도, 이탈리아의 남티롤)의 CNV를 분석한 논문이다. CNV 빈도는 비슷하나 특정 집단(지리적으로 고립된 집단)에서의 독특한 CNV의 분포를 보고하고 있다. 각 집단의 유전적 연관성과 기원을 식별하는 데 CNV가 유용할 수 있음을 시사한다.

 

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0023087

 

Copy Number Variation across European Populations

Genome analysis provides a powerful approach to test for evidence of genetic variation within and between geographical regions and local populations. Copy number variants which comprise insertions, deletions and duplications of genomic sequence provide one

journals.plos.org

 

2-1. Background

  • DGV의하면 인간 게놈의 35%가 CNV 지역이며, 표현형에 기여하며 실제로 복잡한 질병 표현혀에 직접적으로 기여한다는 증거가 보고되었다.
  • 연구 설계, 플랫폼 선택 및 연구 간 분석 방법의 불일치로 독립 연구 간의 CNV 빈도 및 분포 비교가 어렵다.

2-2. method

- 두 가지 알고리즘(QuantiSNP 및 cnvPartition)을 이용

  • 1964명의 개인에서 4016개의 상염색체 CNV를 감지
  • 이는 743개의 복제 수 가변 영역(CNVR)으로 클러스터링되었습니다.

2-3. Overivew of CNV

  • 남티롤인(1인당 1.77개),비스 섬 주민(1인당 1.43개)와 비교했을 때 오크라디아인(1인당 CNV 0.91개)이 평균적으로 적은 CNV가 감지되었다.
  • 대부분 CNV는 길이가 짧았습니다(CNV의 94.1%가 1kb~300kb 사이였고 평균 길이는 205.1kb였습니다

인당 cnv 갯수를 확인한 것이 인상적, 아래 컬럼 정보를 이용해서 우리도 정리하면 좋을 것 같음

길이별 전체 CNV의 몇 퍼센테이지인지 확인하면 좋을 듯

 

2-4. CNV frequency and CNV sharing among populations

  • CNVR 정의 : clustering 'Structure'라는 소프트웨어를 사용(ref 35)
  • 337개의 CNVR(45.4%)은 단 한 명의 개인에서만 감지되었고, 321개(43.2%)는 2~10명의 개인이 공유
  • 37개의 CNVR(5%)만이 세 개의 집단 분리체 모두에서 >1%의 빈도로 존재
  • 588개의 CNVR 중 절반 이상(337개의 CNVR)은 단일 개체에서 발생한 것. 이러한 CNV 평균 길이는 Vis, Orkney 및 South Tyrol의 경우 각각 250.3kb, 205.5kb 및 195.6kb였으며, 이는 공유 CNVR(평균 길이 198.4kb)의 CNV보다 평균적으로 길었습니다(P = 0.04).
 

-> 위와 같이 유래한 sample 도 추적해서 확인해야될 것 -> 방법론은 보류(cluster를 하자 gene level로 올리자...)

-> cnv size distribution에서 outlier를 해석하기 위해서 필요

-> 빈도 값도 필요, 모든 CVR를 공유하고있지않을 거기 때문에 인종을 대표한다..뭐 이런 기준이 필요한 

-> 인종별/대륙별 비교하려면 통합된 CNVR 을 봐야하는데 -> tool merged(샘플별로 생성된)걸로 봐야하는지

-> 실제로도 패턴이 보기 어려웠는데,,,

(a) 최소 두 개인이 공유하는 CNVR 각각을 구성하는 개체군. 각 수직 막대는 CNVR, 각 높이는 보균자 수, 색상은 개체군.

 

당연하겠지만, 빈번한 CNV일 수록 두세 개체군에서 공유되는 지역.

한 인구에게 더 빈번한 것도 종종 다른 인구에서도 빈번하게 관찰

 

-> 그러면, 집단간 차이를 비교하려면 한 집단에서만 확인되는 희귀 CNVR에 주목해야되는데, 필연적으로 빈도가 낮다는 것임

 

(b) 2, 3-5, 6-10, > 10 사람에게서 나타나는 CNVR 에 대한 집단 비율

-> 다시말해, 높은 빈도의 CNVR들은 비교적 오래된 변이일 가능성이 높고, 따라서 여러 인구 집단에 걸쳐 존재할 수 있는 확률이 높아짐. 

-> < 1% 빈도를 갖는 CNVR만 가지고 봐야되는거 아님? 보존적 지역을 제외하던가

 

2-5. Distribution along chromosomes

  • "peri-telomeric regions" : 끝부분(telomere)에서 10Mb 이내의 영역
  • "sub-centromeric regions" : 중심절 근처로부터 10 Mb 떨어진 영역
  • CNV가 peri-telomeric 영역 및/또는 sub-centromeric 영역에 더 많이 집중되는 경향이 관찰되었습니다

-> 이 그림이 신선하다고 느껴졌는데, 근데 peri-telomeric regions에 집중된다기에는 조금 모호한 부분이 있는데..

 

3. MSeq-CNV: accurate detection of Copy Number Variation from Sequencing of Multiple samples

mixture density기반의 여러 샘플의 공통적인 CNV를 감지하는 알고리즘. 기존의 하나의 샘플의 depth를 고려한 방법과 달리 여러샘플의 coverage depth 뿐만아니라 mate pair insertion size의 이상을 감지하는 방법이다.

 

https://www.nature.com/articles/s41598-018-22323-8

 

1000genome 데이터를 사용했다길래 봤는데, 딱히 참고할만한 부분이 없었다.

chr 별 number of cnv calls를 비교한 막대그림 정도..?

약간 의구심이드는 것은 왜 5Mb 이상의 변이에 대해서는 테스트하지 않았나.

 

4. Rare copy number variants in over 100,000 European ancestry subjects reveal multiple disease associations

이 논문은 유럽 혈통의 10만 명 이상의 개인을 대상으로 rare copy number variants(CNV)가 다양한 질병과 연관되어 있음을 조사한 연구이다. 

https://www.nature.com/articles/s41467-019-13624-1

4-1. abstract

  • CNV burden : 한 개체의 게놈 내에서 검출된 CNV 총량
  • 평균 ~650kb의 CNV burden 관찰하여 총 11,314개의 결손, 5625개의 중복 및 2746개의 상동 접합 결손 CNV 영역(CNVR)을 식별
  • 전체적으로 13.7%는 보고되지 않았고, 58.6%는 적어도 하나의 유전자와 겹치고, 32.8%는 코딩 엑손을 방해
  • OMIM 유전자(2.94배), GWAS 유전자좌(1.52배), 비코딩 RNA(1.44배)와 겹칠 가능성이 상당히 더 높다.( P  < 1 × 10 −3 ).
    -> 즉 유전 질환/다양한 표현형/발현량 조절에도 CNV가 영향을 미친다는 말

4-2. methods

  • SNP array/ aCGH platform 이용
  • CNV 호출에 대해 검증된 강력한 CNV 파이프라인인 ParseCNV를 사용

4-3. results

 

  • figure 1.(d) 각 개인 별 dup/del bps log 스케일링한 밀도 플롯
  • dup 이 많은 개인은 del도 많다.
  • 그러나 예외도 있다. dup/del 만 크고 반대는 없는 경우

그림이 신선해서 가져왔는데, dup/del 관계성을 쉽게 파악할 수 있는 그림이다. 사실 별 정보가 없다고생각하지만, 직관적 파악하기 쉬운 그림이다. 무작위적이지않고 다이아몬드 형태의 패턴이 보이는게 신기하다. 

 

 

  • figure 2.(a) CNVR이 유전자 및 기능적 위치와 얼마나 자주 겹치는지 확인 (b) CNVR이 유전자의 어느 feature와 겹치는 확인하는 그림
  • ER score :  무작위 겹침 확률보다 얼마나 높은지 확인

-> OMIM 과 GWAS 유전자와 nonRNA 지역에 대하여 permutations 방식으로 enrichment ratio(ER) 계산한 것은 따라해볼 만하다. > gene level로 올리는 작업이 먼저 필요해보인다.

-> feature의 경우 굳이 gene level로 올리지않아도 bp 단위로 겹치는 region에 전체 길이를 나누는 작업을 하면 되지않을까..?

 

 

 

 

figure 3.(a) 질병 표현형을 가진 개인을 네 가지 주요 범주(그림  3a )와 건강한 대조군으로 클러스터링 (b) 질병과 관련된 CNVR과 아닌 CNVR(검은색선) 간의 길이차이 (c) CNVR의 분포를 보여주는 Circos 플롯

 

(a) 그림은 1000genome 데이터에서는 확인하기 어려운..

(b)에서는 질병관련 CNVR끼리 분포차이가 없으며 질병관련없는 CNVR보다 평균적으로 길이가 길지만 크게 다르지않다고 본다. 하지만 왜 단위가 bp 인게 조금 의아한 부분 Kbp 이어야지 않나?

(c) Circos plot은 안쪽에서 밖깥 순으로 PPI, sno/miRNA 위치, miRNa target, conserved region, CNVR frequency, 재조합 빈도, enCODE 주요 세포주 발현, 네 가지 주요 질병 범주(자가면역, 암, 심혈관/대사 질환, 신경/정신 질환)간의 연관성을 시각화하고 있다.사실상 확대해서 보지않는이상 보기 어렵지만...연구자가 이런걸 궁금해할 수 있겠다 정도로 확인했다.