간단리뷰 Day 38. scDrugMap: benchmarking large foundation models for drug response prediction(( 더 자세히 볼 것))

scDrugMap: benchmarking large foundation models for drug response prediction

https://www.nature.com/articles/s41467-025-67481-2

2025, nature communication, 1 citation

어떻게 데이터를 썻는지 참고하고자, 성능도.

약물 저항성은 항암 치료의 주요 과제(challenge)로 남아 있다. 단일 세포 프로파일링(single-cell profiling)은 저항 메커니즘을 밝혀내는 데(uncovering) 전례 없는 해상도를 제공하지만, 단일 세포 수준의 약물 반응 예측을 위한 최신 파운데이션 모델(foundation models)의 잠재력은 여전히 상당 부분 미지로 남아 있다. 본 연구에서는 최신 파운데이션 모델을 활용한 약물 반응 벤치마킹 및 예측을 위해, 파이썬 툴킷과 인터랙티브 웹 서버를 모두 갖춘 통합 프레임워크인 scDrugMap을 소개한다. scDrugMap은 다양한 조직, 약물, 암종 및 치료 조건(treatment conditions, 예: 약물 농도, 투여 시간 등 실험 환경)을 아우르는 60개 데이터셋의 495,000개 세포를 대상으로 8개의 단일 세포 파운데이션 모델과 2개의 거대 언어 모델(LLM)을 평가한다. 통합 데이터(pooled-data) 평가에서는 scFoundation이 특히 종양 조직에서 가장 강력한 성능을 보였다다. 교차 데이터(cross-data) 분석에서는 UCE가 미세 조정(fine-tuning) 후 가장 우수한 성능을 기록했으며, 제로샷(zero-shot) 설정에서는 scGPT가 가장 높은 정확도를 달성했습니다. 종합적으로, scDrugMap은 단일 세포 약물 반응 예측을 위한 파운데이션 모델의 첫 번째 체계적인 벤치마크를 제공하며, 신약 개발과 중개 정밀 종양학(translational precision oncology)을 가속화할 강력하고 사용자 친화적인 플랫폼을 제공합니다.

즉, 어떤 모델이 어떤 암종이나 약물에서 가장 예측을 잘하는가?라는 질문에 답을 제공하는 도구

웹 서버(https://scdrugmap.com/)를 통해 누구나 쉽게 모델을 실험하고 약물 저항성 메커니즘을 분석할 수 있도록 지원함.

1. Idea

scDrugMap의 3가지 핵심 요소
- 컴퓨팅 파이프라인 및 벤치마킹 플랫폼: 사용자는 명령줄 도구(Command-line Tool)나 직관적인 웹 서버를 통해 시스템에 접근
- 모델 및 학습 전략 선택:
  - 8개의 단일 세포 특화 모델(scFMs)과 2개의 일반 대형 언어 모델(LLMs) 중에서 선택
  - 학습 방식으로는 모델의 가중치를 고정하는 레이어 동결(Layer-freezing) 방식과 효율적인 미세 조정을 위한 LoRA(Low-Rank Adaptation) 방식을 지원합니다.
- 예측 결과 도출: 2개의 큐레이션된 데이터베이스를 활용하여 최종적으로 세포가 특정 약물에 민감(Sensitive)한지 또는 저항성(Resistant)을 보이는지 예측
벤치마킹 카테고리
- 조직 유형(Tissue type): 세포주, 골수 흡인물, 종양 조직, 말초혈액 단핵세포(PBMC), 오가노이드 등.
- 약물 유형(Drug type): 표적 치료제, 화학 요법, 면역 요법.
- 암 종류(Cancer type): 폐암, 다발성 골수종(MM), 흑색종, 급성 림프구 백혈병(ALL) 등 총 14개 이상의 암종.

2. Materials & Methods

주요 데이터 컬렉션(Primary Data Collection, Fig. 1c): 23개의 연구에서 수집된 36개의 데이터셋(326,751개 세포)으로 구성됩니다. 막대 그래프에서 어두운 색상은 민감한 세포를, 밝은 색상은 저항성 세포의 수를 나타냅니다. 폐암, 다발성 골수종, 흑색종 등이 큰 비중을 차지합니다.
검증 데이터 컬렉션(Validation Data Collection, Fig. 1d): 모델의 일반화 능력을 확인하기 위해 별도로 수집된 외부 데이터셋입니다. 고형암에 초점을 맞춘 24개의 데이터셋이 포함되어 있으며, 난소암, 비소세포폐암(NSCLC), 췌장암 등 다양한 암종을 망라합니다.

3. Evaluation & Findings

3.1 Pooled-data evaluation in primary data collection

목적: 약물 반응(Drug Response)예측
개별 세포가 특정 약물에 대해 민감(Sensitive)한지 또는 저항성(Resistant)을 보이는지를 확인
F1 score: 데이터가 불균형할 때(예: 암 환자와 정상인 비율이 크게 차이 날 때) 모델이 얼마나 정답을 잘 맞히는지 정확하게 보여주는 점수. 정밀도(모델이 "양성(Positive)"이라고 예측한 것들 중, 실제로 진짜 양성 비율)와 재현율(실제 양성인 전체 샘플 중, 모델이 양성이라고 찾아낸 비율)의 조화 평균임. 두 지표가 모두 균형 있게 높을 때만 점수를 줌.

주관적 해석)

데이터 수와 성능이 항상 비례하지는 않으며, 데이터가 적은 카테고리에서 성능이 불안정한 모습이 관찰
- 적은 데이터에서의 높은 점수(역설적 결과): 소스에 따르면 전립선암(10,982개 세포)이나 췌장암(6,136개 세포)에서 특정 모델들이 매우 높은 F1 점수를 보였는데, 보고서는 이것이 오히려 상대적으로 작은 샘플 사이즈와 심각한 클래스 불균형 때문. 통계적 착시효과
- 개별 세포의 유전자 발현량만 보는 것이 아니라, 다양한 컨텍스트(문맥) 정보를 함께 활용하기 때문으로 생각됨.
- scGPT는 배치(batch), 양상(modality), 섭동(perturbation) 조건과 같은 메타 정보(Condition Tokens) 입력에 포함.
- CellPLM 같은 모델은 세포를 단어로, 조직(tissue)을 문장으로 취급
- Foundation의 경우, 입력값으로 유전자 발현량 외에도 데이터의 출처를 나타내는 **'S'(source)**와 총 유전자 발현량을 나타내는 'T'(target) 지표를 함께 사용

레이어 동결(Layer-freezing) 전략 결과
- scFoundation의 압도적 우위: * 세포주(Cell line) 데이터에서 평균 F1 0.971로 최고점 기록.
  - 대부분의 데이터셋에서 타 모델 대비 일관되게 우수한 성능 입증.
- 시나리오별 특화 모델:
  - LLaMa3: CAR-T 치료 체계(F1: 0.875), 전립선암, 췌장암 분야에서 scFoundation과 대등한 성과.
  - scGPT: 카보플라틴(Carboplatin) 치료 체계(F1: 0.882)에서 최적의 성능 발휘.
- 성능 하위 모델:
  - CellLM / scBERT: PBMC 데이터에서 한계 노출.
  - Geneformer: 면역 요법(Immunotherapy) 데이터셋에서 낮은 성능 기록.
미세 조정(Fine-tuning) 전략 결과
- 전반적인 성능 향상
- scFoundation의 시장 지배력:
  - 조직별: 모든 카테고리(종양 0.990, 골수 0.962, PBMC 0.940, 세포주 0.947)에서 평균 F1 점수 1위.
  - 약물별: 화학 요법(0.996) 및 표적 치료(0.953)를 포함한 대부분의 영역에서 최고 성능.
- scGPT의 특정 분야 강세:
  - 흑색종(Melanoma) 암종 및 베무라페닙(Vemurafenib) 요법 예측에 한해서는 scFoundation을 제치고 전체 1위

3.2 Cross-data evaluation in primary data collection

일반화 능력 평가 목적, 이전에 본 적 없는 독립적인 데이터셋(unseen datasets)에 테스트
새로운 환자 데이터를 접했을 때의 신약 반응 예측(de novo drug response prediction) 성능을 확인
동일한 조직이나 약물 카테고리 내에 있더라도 서로 다른 연구실이나 플랫폼에서 생성된 데이터 간의 차이(배치 효과 등)를 모델이 극복할 수 있는지 측정하는 것이 목적
통합 데이터(pooled-data) 평가에 비해 훨씬 까다로운 조건이었기 때문에, 전반적으로 모든 모델의 성능이 하락하는 경향을 보임.
1. 레이어 동결(Layer-freezing) 전략 결과
  - scGPT: 종양 조직(F1 0.858)에서 다른 모델들을 제치고 유의미한 1위 달성.
  - UCE: 종양 조직 및 화학 요법 전반에서 우수한 성적.
  - scFoundation: 다발성 골수종(MM) 특정 분야에서 강세(0.734).
  - LLaMa3: 성능 수치는 아주 높지 않으나, 암 종류별 편차가 가장 적어 안정적임.
2. 미세 조정(Fine-tuning) 전략 결과
  - UCE의 지배력: 파인튜닝 후 종양 조직, 표적 치료, 특정 항암제(파클리탁셀) 등 다수 분야에서 1위 차지.
    - 종양 조직(0.774), 표적 치료(0.549), 파클리탁셀 요법(0.677)
  - scFoundation의 약점 노출: 통합 데이터에서는 강했지만, 외부 데이터로 넘어가는 일반화 성능은 오히려 감소함 (특히 이브루티닙 요법에서 부진).
  - CellPLM: 면역 요법 분야에서 존재감을 드러내며 2위 기록.
데이터가 잘 정제된 통합 환경에서는 scFoundation이 유리
하지만, 실제 임상 현장처럼 외부 데이터를 다뤄야 할 때는 UCE나 scGPT가 더 나은 선택일 수 있음.
대부분의 모델이 F1 0.8을 넘기지 못함
아직 AI가 한 번도 본 적 없는 새로운 환자 데이터를 완벽하게 예측하기엔 개선의 여지가 많음을 시사함.

figure3. legend

조직 유형 (Tissue type):

    ◦ 세포주(Cell line): 분홍색

    ◦ 골수 흡인물(Bone marrow): 보라색

    ◦ 종양 조직(Tumor tissue): 초록색

    ◦ 말초혈액 단핵세포(PBMC): 주황색

• 약물 유형 (Drug type):

    ◦ 표적 치료(Targeted therapy): 갈색/빨간색 계열

    ◦ 화학 요법(Chemotherapy): 파란색

    ◦ 면역 요법(Immunotherapy): 노란색

• 치료 체계 (Regimen type): '화학 요법(Chemotherapy)'이라는 큰 카테고리 안에서도, 사용되는 약물에 따라 세포의 반응 기전이 완전히 다르기 때문

    ◦ 파클리탁셀(Paclitaxel): 하늘색

    ◦ 이브루티닙(Ibrutinib): 빨간색

임베딩 시각화:

scFoundation과 scGPT가 약물 내성 세포와 약물 민감성 세포를 효과적으로 구분함.

다른 모델들은 제한적인 구분 능력을 보임.

3.3 Few-shot learning for drug response prediction

단일 세포나 생물학적 데이터에 특화되지 않은 일반 대형 언어 모델(General-purpose Foundation Model)인 GPT-4o-mini가 단일 세포 전사체 데이터를 바탕으로 약물 반응을 얼마나 잘 예측할 수 있는지 평가함.
분명한 성능의 한계를 보임
- 전반적 부진: 대부분의 항목에서 F1 점수가 0.5 근처이거나 그 이하를 기록 (동전 던지기와 비슷한 수준).
- 조직별 격차:
  - 간암(0.690): 유일하게 어느 정도 유의미한 예측력을 보임.
  - 골수/세포주(0.4대): 매우 낮은 성능을 기록하여 데이터 해석에 실패함.
- 치료 요법별: 표적/화학 요법은 0.5 수준을 유지했으나, 면역 요법(0.391) 및 특정 암종(췌장암 0.190)에서는 예측이 거의 불가능한 수준이었음.
> 프롬프트 전략: "방법론의 차이"
- 정보량: 제공하는 유전자 수를 늘려도(10개 → 100개) 성능 향상은 미미함.
- 사고 방식(CoT): Chain of Thought(단계별 사고) 기법을 적용했을 때, 단순히 결과만 묻는 것보다 성능이 상대적으로 개선됨.
> 결론 및 시사점: "전문가(scFM)의 필요성"
- 도메인 학습 필수: 일반 모델은 단일 세포 데이터의 복잡한 맥락을 이해하는 데 한계가 명확함.
- 결론: 생물정보학 분야에서 신뢰할 수 있는 AI를 구축하려면,
  반드시 단일 세포 데이터로 사전 학습된 모델(scFM)**을 쓰거나 강력한 도메인 적응(Domain Adaptation) 과정을 거쳐야함.

3.4 Model evaluation in the validation data collection

최신성 보장: 모델이 미리 답을 외웠을 가능성을 없애기 위해 2024년 1월 이후 발표된 최신 연구 데이터만 사용.
다양한 환경: 오가노이드(미니 장기), 고형암(폐암, 췌장암 등) 등 복잡한 임상 환경에서의 견고함(Robustness) 측정.
전략: 모델의 구조를 건드리지 않는 레이어 동결(Layer-freezing) 방식을 채택하여 모델 본연의 실력을 평가.

scFoundation의 압도적 우위: 모든 지표(F1, AUROC 등)에서 1위를 차지하며 '범용성' 입증.
- 조직: 오가노이드(0.973)에서 경이로운 성적을 거둠.
- 암종: **비소세포폐암(0.997)**과 유방암(0.985)에서 거의 완벽에 가까운 예측 수행.
- 약물: 면역 요법(0.915)을 포함한 모든 치료 유형에서 고르게 높은 성능 유지.
기타 모델의 성능:
- scGPT / tGPT: 종양 조직에서는 선전했으나, 세포주(Cell line) 데이터에서는 scFoundation 대비 성능이 크게 하락함.
- 약점 노출: scGPT의 경우 난소암과 흑색종 예측에서 타 모델(CellPLM 등)보다 현저히 낮은 점수를 기록하며 기복을 보임.

4. Take away

왜 binary문제로 풀엇을까? 모델의 한계때문?? 그래서 오히려 60개 데이터베이스를 확보할 수 있었던것 같기도하고
sensitivity/registance 기준은 뭐고 어떻게 데이터를 확보했는지. 그리고 특히 sensitiity 데이터가 많을 것 같은데
- umap상에서 보면 각 cell type별로 label불균형이 심하다는 것을 확인할 수 있음.
scFoundation 성능도 준수, umap에서도 구분되어있음. 근데 같은 cell인데 cluster가 흩어진 이유가 무엇일까..
scGPT는 umap에서 구분이 뛰어난 반면, scFoudation 성능과 꽤나 격차가 있음.
USE 외 다른 모델들의 umap의 구분력이 없지만 그럼에도 특정 zero-shot 분야에서 두각이 나타나기도함.

저작자표시 (새창열림)

'Paper' 카테고리의 다른 글

간단리뷰 Day 40. Large-scale foundation model on single-cell transcriptomics (0)	2026.01.27
간단리뷰 Day 39. Deep-learning prediction of gene expression from personal genomes ((검토끝나면 다시 읽어볼것) (0)	2026.01.26
간단리뷰 Day 31. Ancestral diversity in complex disease genetics: from discovery to translation (0)	2026.01.20
간딘리뷰 Day 36. Benchmarking DNA foundation models for genomic and genetic tasks ((꼼꼼히 읽을거)) (0)	2026.01.20
간단리뷰 Day 35. TxGemma: Efficient and Agentic LLMs for Therapeutics (0)	2026.01.14

Bioinfomatics

간단리뷰 Day 38. scDrugMap: benchmarking large foundation models for drug response prediction(( 더 자세히 볼 것))

scDrugMap: benchmarking large foundation models for drug response prediction

1. Idea

2. Materials & Methods

3. Evaluation & Findings

3.1 Pooled-data evaluation in primary data collection

3.2 Cross-data evaluation in primary data collection

3.3 Few-shot learning for drug response prediction

3.4 Model evaluation in the validation data collection

4. Take away

'Paper' 카테고리의 다른 글

티스토리툴바

간단리뷰 Day 38. scDrugMap: benchmarking large foundation models for drug response prediction(( 더 자세히 볼 것))

scDrugMap: benchmarking large foundation models for drug response prediction

1. Idea

2. Materials & Methods

3. Evaluation & Findings

3.1 Pooled-data evaluation in primary data collection

3.2 Cross-data evaluation in primary data collection

3.3 Few-shot learning for drug response prediction

3.4 Model evaluation in the validation data collection

4. Take away

'Paper' 카테고리의 다른 글

'Paper' Related Articles

티스토리툴바