목적 : 사용할 데이터의 출저를 파악하고, 필터링 적용 기준을 확인한다.
2018, Nucleic Acids Research, 751citation (19.16 impact factor)
https://academic.oup.com/nar/article/46/D1/D239/4634010
DIANA-TarBase v8: a decade-long collection of experimentally supported miRNA–gene interactions
Abstract. DIANA-TarBase v8 (http://www.microrna.gr/tarbase) is a reference database devoted to the indexing of experimentally supported microRNA (miRNA) targets
academic.oup.com
Abstract
- 실험적으로 찾아낸 miRNA target 에 전념한 참조 데이터 베이스이다.
- 약 67만개의 고유한 miRNA-target 쌍, 33개의 실험적 방법론으로 약 600개의 세포 조직에서 약 452개의 실험 조건에서 수행된 데이터가 통합되었다.
- 10년 이상의 결과물들의 축적으로, 종, 방법론, 세포 유형 및 조직에 따른 양성 및 음성 miRNA 타겟을 검색 할 수 있으며, 파이 차트 및 대화형 막대 그래프와 같은 인터페이스 또한 제공한다.
Introduction
- microRNA의 조절 역할을 명확히 하기 위해서는 정확한 microRNA target 특성화하는 것은 필수적이다.
- miRNA는 길이가 짧은 (∼23 nt) 단일 가닥 비코딩 RNA 분자로서 mRNA의 전사 조절을 한다.
- 지난 15년 동안 miRNA interactome(microRNA-target 모음)를 결정하기 위해 다양한 in silico 및 실험적 절차가개발되었다.
- 고처리 기술을 통해, 새롭게 식별한 상호작용과
- microRNa-target 상호작용 식별 알고리즘
- 검층된 microRNA target에 대한 정보는 많은 출판물 및 고처리 실험의 원시 데이터셋들은 흩어져있다.
- 이에 따라, miRA 관련 연구를 지속적으로 지원하고 실험적으로 지원되는 상호작용을 카탈로그화 하기 위해 몇가지 저장소가 개발되어 왔다.
Experimental methodologies
- 저처리 및 고처리 실험으로 나뉜다.
-low throughput techniques :
- 직접적인 방법, reporter gene assay : reporter gene을 이용해 miRNA 결합 위치를 인식하는 실험
reporter gene : 연구자가 관심 있는 유전를 식별하기 위해, 관심 있는 유전자와 같은 조절자에 의해 조절되는 유전자들 중에서, 식별이 가능한 유전자 서열이나 단백질을 생산하는 유전자 서열을 의미합니다. 본 논문에서는 microRNA의 target 을 식별하기위해 reporter gene을 사용했습니다.
- 간접적인 방법, mRNA 또는 단백질 농도의 감소를 고려하여 상호작용을 추론
- 즉, 결과물의 양적인 변화를 측정하는 방법, qPCR, western blot, enzyme-linked immunosorbent assay
- High-throughput techniques :
- High-throughput techniques, enabling the indirect detection of numerous miRNA targets
- advance next-generation sequencing technologies :
- 특정 microRNA의 target mRNA을 식별하는 실험 방법입니다.
- RNA immunoprecipitation combined with sequencing (RIP-seq) :
RNA 분자가 특정 단백질과 상호작용하여 어떤 역할을 하는지를 알아내는데 유용합니다. miRNA-target 분석에서는 RNA 분자가 miRNA와 결합하여 억제되는 것이 관심사이기 때문에, RIP-seq은 miRNA-binding protein (예를 들면, Argonaute protein)과 결합한 RNA 분자를 분석하여 miRNA target 후보군을 찾는 데 활용됩니다
- Ribosome profiling sequencing (RPF-seq) experiments
단백질 합성 과정에서 ribosome의 위치를 파악하여 효율성과 속도를 분석하는 실험 기술입니다. 이 방법은 mRNA에서 ribosome의 위치를 정확히 파악하고 이에 따른 단백질 합성 정보를 제공함으로써, miRNA에 의해 억제되는 mRNA와 단백질 합성 속도에 대한 정보를 얻을 수 있습니다. 즉, 특정 miRNA의 target mRNA에서 번역 중단 혹은 지연 등의 현상을 관찰함으로써 target을 식별합니다.
- Crosslinking and immunoprecipitation sequencing (CLIP-seq) methodologies
RNA 결합 단백질인 RNA-binding protein(RBP)과 상호 작용하는 RNA 분자를 교차결합(Crosslink)시키고, 이를 통해 RBP와 상호 작용하는 mRNA 또는 miRNA를 파악하는 기술이다. AGO CLIP-seq은 특히 miRNA와 상호작용하는 RBP인 Argonaute(Ago) 단백질의 결합 부위를 파악하여, 대규모로 miRNA의 target mRNA를 식별하는 데 활용돈다. 이 방법론은 전례없는 정확도와 다수의 miRNA 표적을 제공함으로써 miRNA 연구의 새로운 시대를 열었다.
- CLEAR-CLIP & CLASH 프로토콜 : 최신 기술 버전에는 miRNA 분자를 각각의 표적 결합 부위와 연결하여 수백 개의 키메라 miRNA-mRNA 조각을 생성하는 추가 연결 단계가 포함되어 있다.
Databases indexing miRNA–gene interactions
기존의 데이터베이스
- miRTarBase : 몇 가지 종에 대한 저-/고수율 실험에서 지원되는 ∼35만개 이상의 miRNA 타겟을 통합하는 방대한 저장소
- miRNA, 대상 유전자 및 결합 부위 위치에 대한 정보를 제공
- 6번째 버전은 Cancer Genome Atlas에서 검색된 miRNA/mRNA 프로필을 추가로 강화
- miRecords, miR2Disease : 보다 작은 규모로, 지속적으로 업데이트되지 않는 저장소
- 이들은 저수율 기술에서 유효한 상호작용 약 3,000개를 포함
- miR2Disease는 사람 질병에서 miRNA 이상에 대한 정보와 결합된 수동으로 교정된 miRNA 타겟을 보유
- StarBase, CLIPZ : CLIP-seq 데이터에서 RNA 결합 단백질 영역을 제공
(자신의 의견을 작성합니다.)
DIANA-TarBase 설명
- ∼67만 개의 독특한 실험적으로 지원되는 miRNA-유전자 상호작용을 갖는 방대한 저장소
- 100만 개 이상의 miRNA-유전자를 제공하며, 다양한 방법론, 세포 유형/조직 및 실험 조건에 따른 결과를 제공한다.
- 초기에는 실험적으로 검증된 miRNA 상호작용을 색인화한 최초의 데이터베이스로 출시되었으며, 이후로 계속 업데이트
- 이전 버전 대비 약 20만 건의 상호작용과 약 30만 건의 항목이 증가되었다.
- 브라우징 모드가 도입되었다.
- 사용자는 특정 miRNA/유전자 쿼리를 수행하지 않고도 종, 방법론, 세포 유형, 조직별로 많은 양의 miRNA-유전자 상호 작용을 쉽게 얻을 수 있다.
- 지원 실험 방법론의 견고성을 기반으로한 순위 시스템을 도입하여 상호 작용을 정렬할 수 있도록 했다.
- 통계, 고급 파이 차트 및 막대 그래프는 전용 결과 페이지를 제공한다.
Materials & Methods
Collected data
- 약 419개의 출판물이 수작업으로 검토되어 추가
- (간접 및 직접적인) 상호작용을 가진 약 245개 이상의 고처리량 데이터셋이 수집되거나 분석
- miRNA-타겟 상호작용은 관련 출판물 및 방법론, 조직, 세포 유형 및 긍정적 또는 부정적 조절 유형에 대한 정보와 함께 결합
geneId geneName mirna species cell_line tissue category method positive_negative direct_indirect up_down condition
ENSG00000065911 MTHFD2 hsa-miR-23b-3p Homo sapiens HEK293 Kidney Embryonic/Fetal PAR-CLIP POSITIVE DIRECT DOWN mild MNase digestion
- 직접적인 기술의 경우, 정확한 miRNA 결합 위치가 보관되며, 클로닝 프라이머 및 대상 규제 영역 (예 : 3 '미해독 영역 - 3' UTR, 코딩 시퀀스 - CDS)에 대한 보충 정보가 포함됩니다. 고처리량 실험에서 지원되는 상호작용은 관련 출판물이나 Gene Expression Omnibus (GEO) (17) 및 DNA Data Bank of Japan (DDBJ) (18) 저장소에서 검색된 원시 라이브러리의 분석에서 추출되었습니다. 실험 절차 / 조건에 대한 설명도 사용자에게 제공됩니다.
Analysis of high-throughput datasets
- 고처리량 실험 : 특정 miRNA 처리 후 유전자 발현 변화를 검색하기 위해 분석된 실험이다.
- Raw microarray datasets : R 언어로 개발된 표준 인실리코 파이프라인으로 처리
- Affymetrix arrays : Bioconductor 패키지 affy 또는 oligo에서 제공하는 Robust Multi-Array Average를 사용하여 프로브 세트 요약 수행
- Agilent 및 Illumina 마이크로어레이 데이터셋은 normexp 방법과 분위수 정규화
- Probe sets : chip-specific Bioconductor R 패키지를 이용하여 Ensembl gene ID (23)에 매핑
- limma 를 사용하여 moderated t-통계량을 사용하여 차이가 있는 발현을 평가
- 연관된 P-값을 조절하여 Benjamini-Hochberg 방법을 사용하여 거짓 발견 비율을 제어
- 동일한 유전자에 매핑된 프로브 세트의 log2 fold change 값을 평균 내어 발현 변화를 계산
Database statistics
- DIANA-TarBase v8.0은 실험적으로 검증된 miRNA target의 가장 큰 집합인 100만개 이상의 항목을 제공
- 이 miRNA-gene 상호작용 컬렉션은 18개 종, 85개 조직, 516개 세포 유형, 약 451개의 실험 조건에 걸쳐 33개 이상의 낮은 수율 및 고처리량 기술을 사용한 실험에서 유래
- 약 1200개의 논문이 수작업으로 curate
- 350개 이상의 고처리량 데이터 세트가 분석
- 새로운 데이터베이스 버전은 다양한 양의 positive와 negative direct miRNA 상호작용을 포함
- 이 중 특정 기술에서 유래된 상호작용은 1만 개 이상이며, 이 중 약 5,100개의 miRNA target은 reporter gene assay를 통해 확인
- 이는 TarBase v7.0에서와 비교하여 1.6배 증가
- CLASH 및 CLEAR-CLIP 실험, 그리고 출판된 AGO-CLIP 데이터 세트의 이전 메타 분석에서 정의된 14,000개 이상의 직접적인 miRNA-mRNA chimeric fragment가 저장소에 통합
- 3개의 연구에서의 AGO CLIP-seq 라이브러리 추가 분석으로 약 90,000개의 새로운 항목이 생성
- 28개 조직 및 82개 세포 유형에서 206개의 실험 조건에서 수행된 miRNA 전용 transfection/knockdown microarray, RPF-seq, RIP-seq 및 RNA-seq 실험에서 추출된 약 233,000개 이상의 상호작용이 추출
Interface
Querying the database
- PostgreSQL에서 개발된 새로운 관계형 스키마 도입
- 인터페이스는 Yii 2.0 PHP 프레임워크를 사용하여 재설계
- miRNA 및/또는 유전자 이름으로 쿼리를 수행(ENSEMBL 및 miRBase 의 식별자 지원)
- 실험 방법론, 세포 유형 및 조직과 같은 별개의 필터 조합을 통해 검색 가능
- 결과는 유전자 및/또는 miRNA 이름과 이러한 상호 작용을 지원하는 실험, 간행물 및 세포 유형/조직의 수를 기준으로 오름차순 또는 내림차순으로 정렬 가능
- 바인딩 위치 및 실험 조건을 포함한 자세한 메타 데이터 표시
Ranking system
- 해당 실험 기술의 견고성에 따라 기본적으로 정렬 - 저효율 실험에서 결정된 miRNA-유전자 상호작용이 먼저 보고되며, 이어서 고효율 기술에서 유래된 상호작용이 보고=
Browsing mode
Advancded statistics
Database interconnections
Conclusions
- DIANA-Tarbase v8.0은 수십만 개의 miRNA target을 인덱싱하는 끊임없는 노력하여, 어떠한 관련 데이터베이스보다도 많은 수의 miRNA-gene 상호작용을 포함한 약 100만 개의 항목을 이뤘다.
- 새롭게 디자인된 인터페이스는 약 33가지의 실험적 기법을 사용하여 약 600개의 서로 다른 세포 유형/조직에서 약 451가지의 실험 조건에서 얻어진 miRNA 상호작용을 추출하는 것을 용이하게 만들어준다.
- DIANA-miRPath v3.0 (29) 와의 연결을 통해 생리/병리적인 분자 경로에서 miRNA가 발휘하는 규제를 조사하는 것을 돕는다.
(실제 bulk data를 다운로드받아 확인했을때에는 홈페이지에서 제공하는 디테일한 정보를 제공해주지 않는다.
홈페이지에서는 p-value 값을 보여주며, 심지어는 없는 상호작용도 존재한다. p-value 값을 기준으로 cut off해보고 싶은데,,
더불어 여전히 궁금한것은 한 microRNA가 400여개의 gene을 조절하는 경우도 검색되는데, 이에 대한 해답을 제공해주지 않는 논문이였다. 따라서 더 다른 target 논문을 보기보다는 분석쪽 논문을 봐야할 것 같다.)