본문 바로가기

Bioinfomatics

[RNA-seq analysis protocol] Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks (수정중)

1. 데이터 준비하기

- sequence data

현재 GSE32038에 대한 fq 데이터를 다운 받을 경로가 없는 걸로 확인된다.

1. https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE32038 

2. https://ftp.ncbi.nlm.nih.gov/geo/series/GSE32nnn/GSE32038/suppl/

웹페이지를 확인하면 Raw data are available on Series record 라는 문구가 나오는데,

https://www.biostars.org/p/182566/

위 biostar 커뮤니티를 확인하면 파일 생성자에게  메일을 보내보는 수 밖에 없어보인다.

혹은 raw data가 bam, gtf.gz 파일만을 의미하는 것으로 보인다.

따라서  논문 protocol step1~4 을 생략하고 바로 DEG analysis를 진행해야 될 것 같다.

하지만 과거의 나는 fq 파일을 다운받아 실행한 적이 있어서 다시 한번 찾아보았다.

https://www.biostars.org/p/121235/

위 게시물에서 데이터를 다운 받을 수 있었다.

wget ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE32nnn/GSE32038/suppl/GSE32038_simulated_fastq_files.tar.gz
tar -zxvf GSE32038_simulated_fastq_files.tar.gz

다만 이 데이터를 사용하기 위해서는 추가 과정이 필요한데, 

1. tophat에서 인풋을 fq.gz 도 넣어도 실행이 되는지 확인하기
안되면 gunzip으로 압축을 해제

2. 논문에 있는 tophat 명령어

tophat -p 8 -G genes.gtf -o C1_R1_thout genome C1_R1_1.fq C1_R1_2.fq
라고 되어있는데, 실제 다운로드한 파일명은 GSM794483_C1_R1_1.fq.gz 이어서 두가지 방법중에 하나를 선택해야된다.
- GSM794483_C1_R1_1.fq.gz 파일명을 C1_R1_1.fq.gz 으로 바꾼다.
- 아니면  tophat -p 8 -G genes.gtf -o C1_R1_thout genome GSM794483_C1_R1_1.fq.gz GSM794483_C1_R1_2.fq.gz 으로 실행한다.

 

+추가 공부)

GSM794483_C1_R1_1.fq.gz

GSM794483_C1_R1_2.fq.gz

GSM794484_C1_R2_1.fq.gz

GSM794484_C1_R2_2.fq.gz

GSM794485_C1_R3_1.fq.gz

GSM794485_C1_R3_2.fq.gz

GSM794486_C2_R1_1.fq.gz

GSM794486_C2_R1_2.fq.gz

GSM794487_C2_R2_1.fq.gz

GSM794487_C2_R2_2.fq.gz

GSM794488_C2_R3_1.fq.gz

GSM794488_C2_R3_2.fq.gz

 

데이터 목록이다. 여기서 C는 condition, R은 replicate으로 C1_R1은 Simulated Condition 1, replicate 1 을 의미한다.

어떤 환경(condition)인지는 모르겠으나

주로 같은 환경에서 반복실험을 하게되는데, 여기서는 3번 반복실험했고(R3) 그중에서 첫번째에 해당하는 실험 결과물을 의미합니다.
그뒤에 1,2 숫자가 있는데, paired-end 로 시퀀싱해서 두 개의 데이터가 나오게된다.

-> paired-end 시퀀싱 데이터는 왜 두 개의 데이터가 나오는지에대하여 조사하기

-> condition1,2 의미 확인하기 (해당 데이터의 레퍼런스 논문)

 

- annotateion data

 

 

2. tool 다운로드 하기

 

2.1. tophat 

- 설치 전 필요한 tool : 

  • Bowtie2 또는 Bowtiew
  • samtools
  • python version 2.6 이상

- 설치 방법:

https://bioinfo-bme.tistory.com/33

 

2.2. Cufflinks

Cufflinks (http://cufflinks.cbcb.umd.edu/) and unpack the Cufflinks tarball and cd to the unpacked directory:

$ tar zxvf
$ cd cufflinks-1.3.0-OSX_x86_64.tar.gz
Copy the Cufflinks package executuble files to some directory in your PATH: $ cp * $HOME/bin

2.3. R

source('http://www.bioconductor.org/biocLite.R')

> biocLite('cummeRbund')

 

3. 실행하기

step1) tophat, alignmnet

실행 결과 아래와 같은 결과물이 나오고 이를 해석할 줄알아야한다.

concordant pair align rate 에 대한 의미를 정확히 파악하지 못했지만,

paired end 로 두개의 파일이 존재하고 이를 R1, R2라고 했을 때, R1과 R2는 쌍을 이뤄야한다.
따라서 concordant pair align rate  는 R1과 R2를 aligend 하고난뒤 R1과 R2가 쌍을 이루는데 성공한 비율을 의미한다고 해석할 수 있다. 내가 공부했을 땐 95% 이상이면 나이스한 결과이다 라고 해석하는데,

경우에 따라 85% 이상도 괜찮은 퀄리티다 라고 판단할 수 있는 것으로 보인다.(하지만 실제 현장에서는 어떻게 고려되는지는 모르겠다..)

그리고 100% 가 안나오는가에 대해 생각해보았을때

- multiple alignment가 존재하기 때문

- 어댑터가 제대로 제거되지않은 fq 파일

- quality가 낮은 fq 파일

중에 하나이지 않을까 생각된다.

'Bioinfomatics' 카테고리의 다른 글

[Review]method for prediction miRNA target  (0) 2022.09.25
[GCTx format]  (0) 2022.08.19
[centrifuge] 설치 및 실행하기  (0) 2022.08.12
[tophat] 설치하기  (0) 2022.08.12
[BDS] CH9 Working with Range Data  (0) 2022.08.01