Predicting and interpreting cell-type-specific drug responses in the small-data regime using inductive priors
https://www.nature.com/articles/s42256-026-01202-2
2026, nature machine intelligence(IF=23.9)
drug response에 특이한 방법으로 GAT 접목한 논문
다양한 세포 종류에 따른 저분자 화합물의 표현형적 영향을 예측하는 것은 신약 개발에 핵심이지만, 여전히 도전적인 과제로 남아 있다. 세포 특이적 전사 반응을 모델링하는 것은 초기 후보 식별을 위한 확장 가능한 대안이 되며, 화학적 공간에 대한 철저한 실험적 탐색보다 더 넓은 범위를 낮은 비용으로 탐색할 수 있게 해준다. 본 연구에서는 세포 특이적 공동 발현 네트워크를 귀납적 편향으로써 (inductive bias) 으로 활용하여 화학적 교란에 의한 전사 반응을 예측하는 그래프 기반 딥러닝 접근법인 PrePR-CT를 제안한다. GAT(Graph Attention Network)는 세포 타입 특이적 유전자 상호작용을 포착하는 생물학적으로 의미있는 표현공간을 학습하며, 이를 통해 유전자 수준의 기여도 분석(attribution analysis)을 가능하게 한다. 인간 혈액 및 다수의 암세포주를 포함한 5개의 단일 세포 RNA 시퀀싱 데이터셋과 대규모 저분자 스크린 데이터를 분석한 결과, 이 방법은 데이터가 제한된 환경에서도 학습되지 않은 교란과 세포 타입에 대해 우수한 일반화 성능을 보였으며, 생성 모델 기반의 기존 방식들보다 발현 변동성에 대해 더 높은 정확도를 달성했다.기여도 분석 결과, 전통적인 차등 발현 분석(DEA)을 보완하는 높은 어텐션 유전자들이 식별되었으며, 이는 저분자 반응의 경로 특이적 메커니즘을 강조해 준다. 확장성, 분포 변화에 대한 강건성(robustness), 해석 가능성을 결합한 PrePR-CT는 세포 타입별 약물 반응 예측을 가능하게 하여 초기 신약 개발에서 세포 교란의 정밀한 모델링을 위한 토대를 제공한다.
* 납적 편향(inductive bias): 모델이 보지 못한 데이터(unseen data)에 대해 예측할 때, 성능을 높이기 위해 사전에 부여한 가정으로 여기서는 공발현 네트워크를 활용
1. Problem
- 기존의 단일 세포 유전자 발현 프로파일을 생성 모델의 한계,
이전에 보지 못한 조건에 효과적으로 일반하기 위해 상당한 양의 데이터가 필요 - RNAseq 데이터와 함게 전이 학습 적용, 그럼에도 공유되는 유전자 제한으로 세포 유형별 마커 유전자가 포함되지 않을 수 있음.
2. Related Work
- chemCPA
- scGen
- GEARS
3. Model
PrePR-CT (Predicting Perturbation Responses in Cell Types)
데이터 구성: (x_i, y_i, g_i)
- x_i: Control, 세포 유전자 발현 벡터(dim=m)
- y_i: Perturbation g_i 이후의 유전자 발현 벡터(response)
- g_i는 두 가지 정보 포함
- c_i: 세포 타입 라벨
- p_i: 임베딩 벡터(dim=k)
- molecular embeddings from SMILES representations
- 각 세포 타입마다 전용 그래프 G_c_i가 존재
- 노드: 유전자
- 엣지: 유전자 간 발현 패턴 상관관계
- 세포 타입별 특이적 패턴 유지
- 작은 disconnected 모듈도 유지
- 동시에 세포 간 공통 유전자 overlap 최대화
- 그래프는 perturbation 없는(control) 데이터로만 구성
→ 테스트 시 perturbation 데이터 없기 때문 - 세포 타입마다 서로 다른 유전자 집합 가능
→ 각 세포의 고유 기능/발현 반영
- single-cell sparsity 해결 위해
→ SEACells로 metacell 생성 후 사용 - 그래프 구성 과정
- HVG (highly variable genes) 5000개 선택
- 같은 세포 타입 metacell만 사용
- 유전자 간 pairwise correlation 계산
- 엣지 필터링
→ 상관계수 절대값 기준 상위 1%만 유지 (나머지 제거)
SEACells는 수만 개의 개별 세포를 그대로 쓰지 않고, 서로 아주 유사한 세포들끼리 묶어서 '메타셀(Metacell)'이라는 대표 그룹을 만듭니다.
- 세포 군집화: 수천 개의 세포 중 상태가 거의 비슷한 50~100개의 세포를 찾습니다.
- 데이터 합산(Aggregation): 이 세포들의 유전자 발현값을 하나로 합칩니다.
- 모델 목표
→ 세포 타입 그래프 + 같은 타입의 컨트롤 샘플 + perturbation 임베딩(p_i)을 이용해
→ y_i (perturbation 효과) 예측
- Loss function
- MSE, does not consider the overall distribution of the actual and predicted samples.
- the Wasserstein distance, or EMD, is an optimal transport measure for comparing probability distributions with disjoint supports
- 생성적 적대 신경망(GAN) 분야에서 상당한 성공을 거두었으며, 기존의 GAN에 비해 더 의미 있고 부드러운 그래디언트 신호를 제공
- 거리를 재는 방법 중 하나로, 확률 분포간 거리를 잴때 사용.
- "P분포를 Q분포로 이동을 시키는데, 가장 효율적으로 이동하는 방법"
- 더 자세한 설명은 여기: https://stevenkim1217.tistory.com/entry/%ED%99%95%EB%A5%A0%EB%B6%84%ED%8F%AC-Wasserstein-%EA%B1%B0%EB%A6%ACWasserstein-DistanceMetric

4. Dataset
- 다양한 상황 평가 위해 5개 single-cell perturbation dataset 사용
- PBMC + IFNβ (Kang)
- McFarland
-
- 13개 약물 perturbation + dose 정보
- 100+ cell line 중 → 샘플 많은 5개만 사용
- SMILES 없는 약물 제외
-
- Chang
- Nault (TCDD mouse liver)
- mouse liver single-nucleus RNA-seq
- TCDD 28일 반복 투여
- 면역세포는 제외 (이동성 때문)
- NeurIPS PBMC
- 144개 compound (LINCS)
- 24시간 후 측정, 3명 donor
- cell type당 샘플 <30 조건 제외
- LINCS(대규모)
- 100만+ 샘플, 2만+ drug
- 대부분 sparse → 300개 미만 조합 제거
- 최종: 21 cell line, 11 perturbation + DMSO
- control–treatment pair는 랜덤 매칭
- 공통 전처리
- mitochondrial / ribosomal gene 제거
- cell 필터: count ≥ 1000, 한 cell에서 측정된 모든 유전자 발현값 합
- gene 필터: 50개 cell 이상에서 발현
- normalize_total 수행
- log 변환 적용
- 각 dataset마다 cell type별 gene graph 생성
- 초기: 5000 × 5000 gene correlation (모든 gene pair)
- threshold 적용 후
- cell type당 약 24만~25만 edge 유지
- Transfer learning (Tahoe dataset 사용)
- 원래: 50 cell line + 380 drug
- NeurIPS와 겹치는 18개 drug만 선택
- cell line 선택 기준
- tissue 다양성 유지
- 각 tissue마다 샘플 가장 많은 cell line 1개 선택
- 이후 subsampling해서 테스트 구성
- 공통 gene set 정의 (transfer learning용)
- 두 dataset에 공통으로 존재하는 gene만 선택
- 각 dataset에서 gene variability 기준으로 ranking
- 두 ranking을 평균내어
- 상위 5000 gene 선택
5. Evaluation & Findings
Fig. 2: PrePR-CT accurately predicts the effect of a single perturbation in an unseen cell type.

GAT의 attention 분석
- gene별 outgoing edge attention 합으로 HAG (high-attention gene) 정의
- HAG vs DEG 비교
- 겹치는 비율: 약 5%
- HAG 333개 :
- cell-type specific
- 네트워크/관계 기반 중요 gene
- DEG 130개 :
- 여러 cell type에서 공통적으로 변화
- 단순 발현 차이 기반
→ 두 방법은 서로 다른 정보(보완적 signal)
- 생물학적 해석
- HAG pathway enrichment 결과:
- T cell activation
- immune system 관련 pathway
-
- IFNβ 작용 기전과 일치
6. Take away
- 구체적으로 이 약물이 cell에 어떤 작용했기 때문이다. 이렇게 해석하기보다는
cell + drug 에 의한 조합에서 gene 들이 이렇게 작용한다.
이런식의 해석을 제공.