[single-cell RNA-seq]Tutorial: guidelines for the computational analysis of single-cell RNA sequencing data
Background
단일 세포 RNA 시퀀싱(Single-cell RNA sequencing) 기술 동향
한 개의 세포에서 수천 개의 유전자를 동시에 측정할 수 있는 단일 세포 RNA 시퀀싱(Single-cell RNA sequencing) 기술은 생물학의 시야를 다시 한번 비약적으로 넓혀주었다. 기존의 한 두 가지의 세포 타
m.ibric.org
[RNA-seq 과 single-cell RNA-seq 차이점]
- bulk RNA 시퀀싱은 시료 내의 모든 세포의 평균값을 분석하는 것
- 단일 세포 시퀀싱은 시료 내의 어떤 세포 타입이 존재하는지 파악한 뒤, 각각의 세포 타입에 대한 평균값을 분석하는 것
-> 단일 세포 시퀀싱의 장점은 세포군의 다양성을 파악하면서
-> 동시에 각 세포군에 대해 기존의 RNA 시퀀싱에 버금가는 민감도로 정보를 얻어낼 수 있게 된다.
[single-cell RNA-seq 과정]
(1) pre-processing
(2) 차원 축소 (dimensionality reduction)
(3) 그래프 형태로 데이터 변환
(4) 그래프 클러스터링 및 연결 구조 분석 (pseudotime)
[step 0. 세포 준비]
단일 세포 시퀀싱 분석의 기본 단위는 하나의 세포이지만, 민감도의 한계로 세포의 모든 RNA 분자에 대한 정보를 얻어낼 수는 없기 때문에 세포 하나만 놓고 보면 놓치는 정보가 상당히 많다. 따라서 단일 세포 시퀀싱 분석의 관건은 여러 개의 세포에서 얻어진 정보들을 잘 분류해서 유사한 세포끼리 모아 준 뒤, 비슷한 세포들의 군집을 하나의 단위로 묶어서 분석하는 것이 일반적이다.
[stpe 1. pre-processing]
- 정확한 분석을 위해 여러 지표(검출된 유전자의 수나 미토콘드리아 유래 RNA 의 비율 등)를 이용해 정상 세포를 잘 선별해주어야 한다.
- read -> mapping gene : expression matrix 생성
- normalization 단순한 방법 사용, 평균 read 수 = 전체 read 개수 / 세포 수
[step 2. dimensionality reduction]
- 데이터양을 줄이기 위함
- 노이즈 제거하기 위함
1. 발현이 아주 적어서 노이즈에 취약하거나, 여러 세포에서 변화가 거의 없는 유전자들은 분석에 큰 의미가 없기 때문에 이들을 제거
2. 유의미한 유전자들만 분석에 활용(이천 개에서 삼천 개 사이의 유전자를 남기는 것이 일반적이다)
3. 추가적으로 principal component analysis (PCA)나 canonical correlation analysis (CCA) 등의 차원 축소 기법을 적용
-> 비슷한 변화를 보이는 유전자끼리 모아 주는 작업
[step 3. 그래프 변환]
- 저차원 공간의 좌표로 표현된 점들을 이어, 각 세포들 간의 상관 관계를 파악한다.
- k-nearest neighbor 방법 이용.
-> 이는 공간 상의 각 점을 그 점으로부터 가장 가까운 k 개의 점과 이어준 그래프
-> 각 세포에 대해 가장 가까운 다른 세포가 무엇인지 찾고 저장
[step4. 그래프 클러스터링 및 연결 구조 분석]
louvain clustering이라는 그래프 클러스터링 알고리즘이 주로 사용된다. 이렇게 찾아낸 세포 군집들에 대해서, 마커 유전자를 찾아내서 세포 타입을 동정하고 그 특징을 분석하는 것이 단일 세포 시퀀싱의 주요 작업이다. 클러스터링이 세포를 덩어리 별로 끊어내서 분류해 주는 작업이라면, 반대로 세포 군집간의 연결 상태를 분석하는 방향도 있다. 발생 및 분화 과정에 있는 세포들은 그 상태가 연속적으로 변하기 때문에, 그래프로 표현하면 부드럽게 연결된 원통 모양의 연결 형태가 된다. 이 연결 구조를 단순화 시키고, 중심 축을 찾아서 세포들을 축에 순차적으로 배분하면 세포를 변화의 순서대로 배열할 수 있게 되는데, 이는 시간이 공간에 투영된 개념으로 볼 수 있기 때문에 pseudo-time 이라고 한다.
---
view point
* 왜 / tool / 알고리즘
* scRNA-seq 연구사례 궁금
- 특정 gene 을 보고싶거나, single cell 간의 차이가 있을 것이라는 가정하에 진행하는 연구에 대하여
- sparse problem 생김
1. 어떤 cell 로부터 왔는지(cell barcode+UMI) 선별작업
2. quality control
scRNA-seq issue)
- emptydrops : 다른 cell 바코드를 갖는 경우
- ㄴㅊ겨ㅠㅣㄷㅅ, 애ㅕㅠㅣㄷ 랴ㅜㅇㄷㄱ : 여러 바코드를 갖는 경우
- 정상세포 선별 : specific thresholds used manual 직접 -> unmappable reads, multi-mapped reads
3. normalization
- size factor = total read(depth)
- highthrought, low depth ( whole gene을 보겠다 )
- bach effect와 이상증후 간의 차이를 밝혀내는 것이 어려움
- batch effect correct, mmnCorrect
4. Imputation & Smoothing
sparse 하게되므로 다음 순서가 나옴
- imputation
removeing zeros and missing values 예측/global 하여 대체해 넣는다.
- sommothing
reduce the noise
- cell cycle state 구분해야 함
5. feature selection
sparse 데이터이기 때문에, strongest biological signal 만 뽑아냄
6. PCA, 저차원화
7. visulizaition
- UMAP more large-scale, t-SNE 정통 <- user defined 한계
- estimates a low-dimensional embedding -> model 인풋 가능성
8. cell Clustering and Pseudotime
- cell Clustering : k-means, louvain algorithm
- Pseudotime,cell state : manifold approad, cluster-based pseudotime methods
9. DE <- 연구 목적
- cluster 단위로 DE 분석
- cluster 내 bias 고려필요
10. Comparing , Combinding Dataset
batch effect 때문에 다른 실험데이터를 합치는것에 어려움