1. 데이터 준비하기
- sequence data
현재 GSE32038에 대한 fq 데이터를 다운 받을 경로가 없는 걸로 확인된다.
1. https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE32038
2. https://ftp.ncbi.nlm.nih.gov/geo/series/GSE32nnn/GSE32038/suppl/
웹페이지를 확인하면 Raw data are available on Series record 라는 문구가 나오는데,
https://www.biostars.org/p/182566/
위 biostar 커뮤니티를 확인하면 파일 생성자에게 메일을 보내보는 수 밖에 없어보인다.
혹은 raw data가 bam, gtf.gz 파일만을 의미하는 것으로 보인다.
따라서 논문 protocol step1~4 을 생략하고 바로 DEG analysis를 진행해야 될 것 같다.
하지만 과거의 나는 fq 파일을 다운받아 실행한 적이 있어서 다시 한번 찾아보았다.
https://www.biostars.org/p/121235/
위 게시물에서 데이터를 다운 받을 수 있었다.
wget ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE32nnn/GSE32038/suppl/GSE32038_simulated_fastq_files.tar.gz
tar -zxvf GSE32038_simulated_fastq_files.tar.gz
다만 이 데이터를 사용하기 위해서는 추가 과정이 필요한데,
1. tophat에서 인풋을 fq.gz 도 넣어도 실행이 되는지 확인하기
안되면 gunzip으로 압축을 해제
2. 논문에 있는 tophat 명령어
tophat -p 8 -G genes.gtf -o C1_R1_thout genome C1_R1_1.fq C1_R1_2.fq
라고 되어있는데, 실제 다운로드한 파일명은 GSM794483_C1_R1_1.fq.gz 이어서 두가지 방법중에 하나를 선택해야된다.
- GSM794483_C1_R1_1.fq.gz 파일명을 C1_R1_1.fq.gz 으로 바꾼다.
- 아니면 tophat -p 8 -G genes.gtf -o C1_R1_thout genome GSM794483_C1_R1_1.fq.gz GSM794483_C1_R1_2.fq.gz 으로 실행한다.
+추가 공부)
GSM794483_C1_R1_1.fq.gz
GSM794483_C1_R1_2.fq.gz
GSM794484_C1_R2_1.fq.gz
GSM794484_C1_R2_2.fq.gz
GSM794485_C1_R3_1.fq.gz
GSM794485_C1_R3_2.fq.gz
GSM794486_C2_R1_1.fq.gz
GSM794486_C2_R1_2.fq.gz
GSM794487_C2_R2_1.fq.gz
GSM794487_C2_R2_2.fq.gz
GSM794488_C2_R3_1.fq.gz
GSM794488_C2_R3_2.fq.gz
데이터 목록이다. 여기서 C는 condition, R은 replicate으로 C1_R1은 Simulated Condition 1, replicate 1 을 의미한다.
어떤 환경(condition)인지는 모르겠으나
주로 같은 환경에서 반복실험을 하게되는데, 여기서는 3번 반복실험했고(R3) 그중에서 첫번째에 해당하는 실험 결과물을 의미합니다.
그뒤에 1,2 숫자가 있는데, paired-end 로 시퀀싱해서 두 개의 데이터가 나오게된다.
-> paired-end 시퀀싱 데이터는 왜 두 개의 데이터가 나오는지에대하여 조사하기
-> condition1,2 의미 확인하기 (해당 데이터의 레퍼런스 논문)
- annotateion data
2. tool 다운로드 하기
2.1. tophat
- 설치 전 필요한 tool :
- Bowtie2 또는 Bowtiew
- samtools
- python version 2.6 이상
- 설치 방법:
https://bioinfo-bme.tistory.com/33
2.2. Cufflinks
Cufflinks (http://cufflinks.cbcb.umd.edu/) and unpack the Cufflinks tarball and cd to the unpacked directory:
$ tar zxvf
$ cd cufflinks-1.3.0-OSX_x86_64.tar.gz
Copy the Cufflinks package executuble files to some directory in your PATH: $ cp * $HOME/bin
2.3. R
source('http://www.bioconductor.org/biocLite.R')
> biocLite('cummeRbund')
3. 실행하기
step1) tophat, alignmnet
실행 결과 아래와 같은 결과물이 나오고 이를 해석할 줄알아야한다.
concordant pair align rate 에 대한 의미를 정확히 파악하지 못했지만,
paired end 로 두개의 파일이 존재하고 이를 R1, R2라고 했을 때, R1과 R2는 쌍을 이뤄야한다.
따라서 concordant pair align rate 는 R1과 R2를 aligend 하고난뒤 R1과 R2가 쌍을 이루는데 성공한 비율을 의미한다고 해석할 수 있다. 내가 공부했을 땐 95% 이상이면 나이스한 결과이다 라고 해석하는데,
경우에 따라 85% 이상도 괜찮은 퀄리티다 라고 판단할 수 있는 것으로 보인다.(하지만 실제 현장에서는 어떻게 고려되는지는 모르겠다..)
그리고 100% 가 안나오는가에 대해 생각해보았을때
- multiple alignment가 존재하기 때문
- 어댑터가 제대로 제거되지않은 fq 파일
- quality가 낮은 fq 파일
중에 하나이지 않을까 생각된다.
'Bioinfomatics' 카테고리의 다른 글
[Review]method for prediction miRNA target (0) | 2022.09.25 |
---|---|
[GCTx format] (0) | 2022.08.19 |
[centrifuge] 설치 및 실행하기 (0) | 2022.08.12 |
[tophat] 설치하기 (0) | 2022.08.12 |
[BDS] CH9 Working with Range Data (0) | 2022.08.01 |