본문 바로가기

Paper

DIANA-TarBase v8: a decade-long collection of experimentally supported miRNA–gene interactions

목적 : 사용할 데이터의 출저를 파악하고, 필터링 적용 기준을 확인한다.

2018, Nucleic Acids Research, 751citation (19.16 impact factor)

https://academic.oup.com/nar/article/46/D1/D239/4634010

 

DIANA-TarBase v8: a decade-long collection of experimentally supported miRNA–gene interactions

Abstract. DIANA-TarBase v8 (http://www.microrna.gr/tarbase) is a reference database devoted to the indexing of experimentally supported microRNA (miRNA) targets

academic.oup.com

Abstract
- 실험적으로 찾아낸 miRNA target 에 전념한 참조 데이터 베이스이다.
- 약 67만개의 고유한 miRNA-target 쌍,  33개의 실험적 방법론으로 약 600개의 세포 조직에서 약 452개의 실험 조건에서 수행된 데이터가 통합되었다.
- 10년 이상의 결과물들의 축적으로, 종, 방법론, 세포 유형 및 조직에 따른 양성 및 음성 miRNA 타겟을 검색 할 수 있으며, 파이 차트 및 대화형 막대 그래프와 같은 인터페이스 또한 제공한다.

 

Introduction

- microRNA의 조절 역할을 명확히 하기 위해서는 정확한 microRNA target 특성화하는 것은 필수적이다.

- miRNA는 길이가 짧은 (∼23 nt) 단일 가닥 비코딩 RNA 분자로서 mRNA의 전사 조절을 한다.

- 지난 15년 동안 miRNA interactome(microRNA-target 모음)를 결정하기 위해 다양한 in silico 및 실험적 절차가개발되었다.

    - 고처리 기술을 통해, 새롭게 식별한 상호작용과

    - microRNa-target 상호작용 식별 알고리즘

- 검층된 microRNA target에 대한 정보는 많은 출판물 및 고처리 실험의 원시 데이터셋들은 흩어져있다.

- 이에 따라, miRA 관련 연구를 지속적으로 지원하고 실험적으로 지원되는 상호작용을 카탈로그화 하기 위해 몇가지 저장소가 개발되어 왔다.

 

Experimental methodologies

- 저처리 및 고처리 실험으로 나뉜다.

    -low throughput techniques : 

        - 직접적인 방법, reporter gene assay : reporter gene을 이용해 miRNA 결합 위치를 인식하는 실험

reporter gene : 연구자가 관심 있는 유전를 식별하기 위해, 관심 있는 유전자와 같은 조절자에 의해 조절되는 유전자들 중에서, 식별이 가능한 유전자 서열이나 단백질을 생산하는 유전자 서열을 의미합니다. 본 논문에서는 microRNA의 target 을 식별하기위해 reporter gene을 사용했습니다.

       

 

       - 간접적인 방법, mRNA 또는 단백질 농도의 감소를 고려하여 상호작용을 추론

        - 즉, 결과물의 양적인 변화를 측정하는 방법, qPCR, western blot, enzyme-linked immunosorbent assay

    - High-throughput techniques : 

        - High-throughput techniques, enabling the indirect detection of numerous miRNA targets

    - advance next-generation sequencing technologies :

        - 특정 microRNA의 target mRNA을 식별하는 실험 방법입니다.

        - RNA immunoprecipitation combined with sequencing (RIP-seq) :

RNA 분자가 특정 단백질과 상호작용하여 어떤 역할을 하는지를 알아내는데 유용합니다. miRNA-target 분석에서는 RNA 분자가 miRNA와 결합하여 억제되는 것이 관심사이기 때문에, RIP-seq은 miRNA-binding protein (예를 들면, Argonaute protein)과 결합한 RNA 분자를 분석하여 miRNA target 후보군을 찾는 데 활용됩니다

 

        - Ribosome profiling sequencing (RPF-seq) experiments 

단백질 합성 과정에서 ribosome의 위치를 파악하여 효율성과 속도를 분석하는 실험 기술입니다. 이 방법은 mRNA에서 ribosome의 위치를 정확히 파악하고 이에 따른 단백질 합성 정보를 제공함으로써, miRNA에 의해 억제되는 mRNA와 단백질 합성 속도에 대한 정보를 얻을 수 있습니다. 즉, 특정 miRNA의 target mRNA에서 번역 중단 혹은 지연 등의 현상을 관찰함으로써 target을 식별합니다.

 

        - Crosslinking and immunoprecipitation sequencing (CLIP-seq) methodologies

RNA 결합 단백질인 RNA-binding protein(RBP)과 상호 작용하는 RNA 분자를 교차결합(Crosslink)시키고, 이를 통해 RBP와 상호 작용하는 mRNA 또는 miRNA를 파악하는 기술이다. AGO CLIP-seq은 특히 miRNA와 상호작용하는 RBP인 Argonaute(Ago) 단백질의 결합 부위를 파악하여, 대규모로 miRNA의 target mRNA를 식별하는 데 활용돈다. 이 방법론은 전례없는 정확도와 다수의 miRNA 표적을 제공함으로써 miRNA 연구의 새로운 시대를 열었다.

 

        - CLEAR-CLIP & CLASH 프로토콜 : 최신 기술 버전에는 miRNA 분자를 각각의 표적 결합 부위와 연결하여 수백 개의 키메라 miRNA-mRNA 조각을 생성하는 추가 연결 단계가 포함되어 있다.

 

Databases indexing miRNA–gene interactions

기존의 데이터베이스

- miRTarBase : 몇 가지 종에 대한 저-/고수율 실험에서 지원되는 ∼35만개 이상의 miRNA 타겟을 통합하는 방대한 저장소

    - miRNA, 대상 유전자 및 결합 부위 위치에 대한 정보를 제공

    - 6번째 버전은 Cancer Genome Atlas에서 검색된 miRNA/mRNA 프로필을 추가로 강화

- miRecords, miR2Disease : 보다 작은 규모로, 지속적으로 업데이트되지 않는 저장소

    - 이들은 저수율 기술에서 유효한 상호작용 약 3,000개를 포함

    - miR2Disease는 사람 질병에서 miRNA 이상에 대한 정보와 결합된 수동으로 교정된 miRNA 타겟을 보유

- StarBase, CLIPZ : CLIP-seq 데이터에서 RNA 결합 단백질 영역을 제공

 

(자신의 의견을 작성합니다.

DIANA-TarBase 설명

- ∼67만 개의 독특한 실험적으로 지원되는 miRNA-유전자 상호작용을 갖는 방대한 저장소

- 100만 개 이상의 miRNA-유전자를 제공하며, 다양한 방법론, 세포 유형/조직 및 실험 조건에 따른 결과를 제공한다.

- 초기에는 실험적으로 검증된 miRNA 상호작용을 색인화한 최초의 데이터베이스로 출시되었으며, 이후로 계속 업데이트

- 이전 버전 대비 약 20만 건의 상호작용과 약 30만 건의 항목이 증가되었다.

 

- 브라우징 모드가 도입되었다.

    - 사용자는 특정 miRNA/유전자 쿼리를 수행하지 않고도 종, 방법론, 세포 유형, 조직별로 많은 양의 miRNA-유전자 상호 작용을 쉽게 얻을 수 있다.

    - 지원 실험 방법론의 견고성을 기반으로한 순위 시스템을 도입하여 상호 작용을 정렬할 수 있도록 했다.

    -  통계, 고급 파이 차트 및 막대 그래프는 전용 결과 페이지를 제공한다.

 

 

 

 

 

 

 

 

 

Materials & Methods

Collected data

- 약 419개의 출판물이 수작업으로 검토되어 추가

- (간접 및 직접적인) 상호작용을 가진 약 245개 이상의 고처리량 데이터셋이 수집되거나 분석

- miRNA-타겟 상호작용은 관련 출판물 및 방법론, 조직, 세포 유형 및 긍정적 또는 부정적 조절 유형에 대한 정보와 함께 결합

geneId  geneName        mirna   species cell_line       tissue  category        method  positive_negative     direct_indirect up_down condition

ENSG00000065911 MTHFD2  hsa-miR-23b-3p  Homo sapiens    HEK293  Kidney  Embryonic/Fetal PAR-CLIP     POSITIVE DIRECT  DOWN    mild MNase digestion

 

- 직접적인 기술의 경우, 정확한 miRNA 결합 위치가 보관되며, 클로닝 프라이머 및 대상 규제 영역 (예 : 3 '미해독 영역 - 3' UTR, 코딩 시퀀스 - CDS)에 대한 보충 정보가 포함됩니다. 고처리량 실험에서 지원되는 상호작용은 관련 출판물이나 Gene Expression Omnibus (GEO) (17) 및 DNA Data Bank of Japan (DDBJ) (18) 저장소에서 검색된 원시 라이브러리의 분석에서 추출되었습니다. 실험 절차 / 조건에 대한 설명도 사용자에게 제공됩니다.

Analysis of high-throughput datasets

 

- 고처리량 실험 : 특정 miRNA 처리 후 유전자 발현 변화를 검색하기 위해 분석된 실험이다.

- Raw microarray datasets : R 언어로 개발된 표준 인실리코 파이프라인으로 처리

- Affymetrix arrays : Bioconductor 패키지 affy 또는 oligo에서 제공하는 Robust Multi-Array Average를 사용하여 프로브 세트 요약 수행

- Agilent 및 Illumina 마이크로어레이 데이터셋은 normexp 방법과 분위수 정규화 

- Probe sets : chip-specific Bioconductor R 패키지를 이용하여 Ensembl gene ID (23)에 매핑

    - limma 를 사용하여 moderated t-통계량을 사용하여 차이가 있는 발현을 평가

    - 연관된 P-값을 조절하여 Benjamini-Hochberg 방법을 사용하여 거짓 발견 비율을 제어

    - 동일한 유전자에 매핑된 프로브 세트의 log2 fold change 값을 평균 내어 발현 변화를 계산

Database statistics

- DIANA-TarBase v8.0은 실험적으로 검증된 miRNA target의 가장 큰 집합인 100만개 이상의 항목을 제공

- 이 miRNA-gene 상호작용 컬렉션은 18개 종, 85개 조직, 516개 세포 유형, 약 451개의 실험 조건에 걸쳐 33개 이상의 낮은 수율 및 고처리량 기술을 사용한 실험에서 유래

- 약 1200개의 논문이 수작업으로 curate

- 350개 이상의 고처리량 데이터 세트가 분석

- 새로운 데이터베이스 버전은 다양한 양의 positive와 negative direct miRNA 상호작용을 포함

- 이 중 특정 기술에서 유래된 상호작용은 1만 개 이상이며, 이 중 약 5,100개의 miRNA target은 reporter gene assay를 통해 확인

- 이는 TarBase v7.0에서와 비교하여 1.6배 증가

- CLASH 및 CLEAR-CLIP 실험, 그리고 출판된 AGO-CLIP 데이터 세트의 이전 메타 분석에서 정의된 14,000개 이상의 직접적인 miRNA-mRNA chimeric fragment가 저장소에 통합

- 3개의 연구에서의 AGO CLIP-seq 라이브러리 추가 분석으로 약 90,000개의 새로운 항목이 생성

- 28개 조직 및 82개 세포 유형에서 206개의 실험 조건에서 수행된 miRNA 전용 transfection/knockdown microarray, RPF-seq, RIP-seq 및 RNA-seq 실험에서 추출된 약 233,000개 이상의 상호작용이 추출

 

Interface

Querying the database

- PostgreSQL에서 개발된 새로운 관계형 스키마 도입

- 인터페이스는 Yii 2.0 PHP 프레임워크를 사용하여 재설계

- miRNA 및/또는 유전자 이름으로 쿼리를 수행(ENSEMBL 및 miRBase 의 식별자 지원)

- 실험 방법론, 세포 유형 및 조직과 같은 별개의 필터 조합을 통해 검색 가능

- 결과는 유전자 및/또는 miRNA 이름과 이러한 상호 작용을 지원하는 실험, 간행물 및 세포 유형/조직의 수를 기준으로 오름차순 또는 내림차순으로 정렬 가능

- 바인딩 위치 및 실험 조건을 포함한 자세한 메타 데이터 표시

Ranking system

- 해당 실험 기술의 견고성에 따라 기본적으로 정렬 - 저효율 실험에서 결정된 miRNA-유전자 상호작용이 먼저 보고되며, 이어서 고효율 기술에서 유래된 상호작용이 보고=

 

Browsing mode

Advancded statistics

Database interconnections

 

Conclusions

- DIANA-Tarbase v8.0은 수십만 개의 miRNA target을 인덱싱하는 끊임없는 노력하여, 어떠한 관련 데이터베이스보다도 많은 수의 miRNA-gene 상호작용을 포함한 약 100만 개의 항목을 이뤘다.

- 새롭게 디자인된 인터페이스는 약 33가지의 실험적 기법을 사용하여 약 600개의 서로 다른 세포 유형/조직에서 약 451가지의 실험 조건에서 얻어진 miRNA 상호작용을 추출하는 것을 용이하게 만들어준다.

- DIANA-miRPath v3.0 (29) 와의 연결을 통해 생리/병리적인 분자 경로에서 miRNA가 발휘하는 규제를 조사하는 것을 돕는다.

 

(실제 bulk data를 다운로드받아 확인했을때에는 홈페이지에서 제공하는 디테일한 정보를 제공해주지 않는다.

홈페이지에서는 p-value 값을 보여주며, 심지어는 없는 상호작용도 존재한다. p-value 값을 기준으로 cut off해보고 싶은데,, 

더불어 여전히 궁금한것은 한 microRNA가 400여개의 gene을 조절하는 경우도 검색되는데, 이에 대한 해답을 제공해주지 않는 논문이였다. 따라서 더 다른 target 논문을 보기보다는 분석쪽 논문을 봐야할 것 같다.