scRegulate: single-cell regulatory-embedded variational inference of transcription factor activity from gene expression
https://academic.oup.com/bioinformatics/article/41/12/btaf638/8342345
2025, Bioinformatics
강화학습 기반 meta path 방법론이라서, 결과 이미지만 보려고함.
scRNA 시퀀싱데이터에서 전사인자의 활성도를 정확히 추론하는 것은 계산생물학 분야에서 여전히 근본적인 과제로 남아있다. 기존의 방법론들은 통계적인 방법, 모티프 농축(motif enrichment) 또는 사전지식 기반 추론(prior-based inference)에 의존한다. 주로 조절 관계(regulatory relationships)에 대한 종종 결정론적(deterministic) 가정에 치우쳐 있거나(depend on) 정적인 조절 데이터베이스에 의존하는 경우가 많다. 사전 생물학적 지식과 데이터 기반 추론을 효과적으로 통합함으로써 새롭고, 역동적이며 문맥 특이적인 regulatory 관계를 포착하는 접근법은 거의 없는 (few) 실정이다.
이를 극복하기위해 우리는 생성형 딥러닝 프레임워크인 scRegulate를 제안한다. scRegulate는 변이 추론(variational inference)를 활용하여 실험적인 TF-표적 유전자 관계를 가이드로 삼고, 입력되는 scRNA-seq 데이터에 따라 점진적으로 적응하여 TF 활성도를 추정한다. 구조적인 생물학적 제약 조건과 확률적 잠재 공간 모델(latent space)을 결합함으로써, scRegulate는 확장 가능하고 생물학적 근거가 확실한 TF 활성도 및 GRN(유전자 조절 네트워크) 추정알 수 있다. 공공 실험 데이터 및 합성 데이터셋을 활용한 종합적인 벤치마킹을 통해 scRegulate의 우수한 성능을 입증했다. Perturb-seq 데이터셋 분석을 통해 주요 TF의 유전자 넉다운(Knockdown) 효과를 실험 결과와 일치하게 재현(recapitulates)함. 인간 PBMC(말초혈액단핵구) 데이터에 적용했을 때, 세포 유형별 GRN을 추론하고 알려진 규제 경로와 일치하는 차별적 활성 TF들을 식별했다. scRegulate가 생성한 TF 활성 표현(Representation)은 전사적 이질성을 잘 포착하여 정확한 세포 유형 클러스터링이 가능했다. 종합적으로, 본 연구 결과는 scRegulate가 단일 세포 전사체 데이터로부터 TF 활성 및 GRN을 추론하는 데 있어 강력하고, 해석 가능하며, 확장성이 뛰어난 프레임워크임을 입증한다.
Results and scripts available at github.com/YDaiLab/scRegulate.
Materials & Methods

(A) 입력 데이터 (Inputs):
- 유전자 발현 행렬(Gene expression matrix)과
- TF-표적 유전자 사이의 사전 조절 네트워크(Prior GRN)를 입력값으로 사용.
(B) TF 활성도 추론 (Inference):
- 변이 오토인코더(Variational Autoencoder, VAE) 프레임워크를 통해 TF 활성도를 추론.
- 인코더는 입력 데이터를 잠재 공간(Latent space)으로 매핑하고, 이어지는 TF 활성 표현 레이어는 '동적 GRN'으로부터 얻은 정보를 바탕으로 유전자 발현을 예측하고 TF 활성도를 포착함
(C) 후속 분석 (Downstream Analysis):
- 추론된 TF 활성도를 활용하여
(1) 세포 클러스터링
(2) 차별적 활성 TF(Differentially active TFs)를 식별
(3) 세포 유형별 가중치 GRN을 구축함으로써 TF-표적 조절 관계 및 TF-TF 공동 조절(Co-regulation) 추론
Cell 특이적 GRN 구축 방법
(D) 사전 GRN 초기화 (Prior GRN):
이진(Binary) 또는 삼진(Ternary) 형태의 TF-표적 사전 정보를 사용하여 초기 조절 네트워크를 설정.
(E) 동적 GRN 추론 (Dynamic GRN Inference):
조절 강도(TF-표적 유전자 연결의 엣지 가중치)를 조정하고, 새로운 연결을 발견하며, 단순한 연결망에서 가중치가 부여된 GRN으로 발전시켜 네트워크를 정교화.
(F) 미세 조정 (Fine-tuning):
개별 세포 유형이나 클러스터에 맞게 GRN을 미세 조정하여, 최종적으로 세포 유형별 특이적 조절 네트워크를 도출
Evaluation & Findings



figure2. TF activities inferred from four methods (scRegulate, SCENIC, BITFAM, decoupleR, and BIOTIC) using the PBMC, mouse brain, mouse lung, and mouse heart datasets.
- 압도적인 정확도 (A): scRegulate는 여러 장기 데이터셋에서 기존 모델(SCENIC 등)보다 통계적으로 유의미하게 높은 클러스터링 정확도를 보여줌.
- 데이터 노이즈에 강함 (B, C): scRNA-seq의 고질적 문제인 '드롭아웃(값이 0으로 나타나는 현상)'이 30%나 발생해도 성능 저하가 적어, 실제 현장 데이터에 적용하기 매우 적합함.
- 속도와 확장성 (E): 앞선 초록에서 언급되었듯, 데이터가 커져도 연산 시간이 급격히 늘어나지 않아 대규모 데이터셋 분석에 유리함.
figure3. Comparison of scRegulate with alternative tools on GRN inference.
figure4. Application of scRegulate in PBMC dataset.
Take away
- 임베딩 방법은 고전적(VE)이나, 정교한 GRN 구축방법이 킥이었던 논문. 다시 개발자 관점에서 method를 다시 보고자함.
- 실제로 task의 어려움이 확 체감되었던것은 AUROC가 base mode이 0.6 인점.
- 성능 개선에 크게 기여한 부분이 무엇이었을지 궁금함.( 세포 유형별 GRN을 모델링인 것 같기도 한데)