본문 바로가기

Paper

간단리뷰 Day 38. scDrugMap: benchmarking large foundation models for drug response prediction(( 더 자세히 볼 것))

scDrugMap: benchmarking large foundation models for drug response prediction

https://www.nature.com/articles/s41467-025-67481-2

2025, nature communication, 1 citation

어떻게 데이터를 썻는지 참고하고자, 성능도.

 

약물 저항성은 항암 치료의 주요 과제(challenge)로 남아 있다. 단일 세포 프로파일링(single-cell profiling)은 저항 메커니즘을 밝혀내는 데(uncovering) 전례 없는 해상도를 제공하지만, 단일 세포 수준의 약물 반응 예측을 위한 최신 파운데이션 모델(foundation models)의 잠재력은 여전히 상당 부분 미지로 남아 있다. 본 연구에서는 최신 파운데이션 모델을 활용한 약물 반응 벤치마킹 및 예측을 위해, 파이썬 툴킷과 인터랙티브 웹 서버를 모두 갖춘 통합 프레임워크인 scDrugMap을 소개한다. scDrugMap은 다양한 조직, 약물, 암종 및 치료 조건(treatment conditions, 예: 약물 농도, 투여 시간 등 실험 환경)을 아우르는 60개 데이터셋의 495,000개 세포를 대상으로 8개의 단일 세포 파운데이션 모델과 2개의 거대 언어 모델(LLM)을 평가한다. 통합 데이터(pooled-data) 평가에서는 scFoundation이 특히 종양 조직에서 가장 강력한 성능을 보였다다. 교차 데이터(cross-data) 분석에서는 UCE가 미세 조정(fine-tuning) 후 가장 우수한 성능을 기록했으며, 제로샷(zero-shot) 설정에서는 scGPT가 가장 높은 정확도를 달성했습니다. 종합적으로, scDrugMap은 단일 세포 약물 반응 예측을 위한 파운데이션 모델의 첫 번째 체계적인 벤치마크를 제공하며, 신약 개발과 중개 정밀 종양학(translational precision oncology)을 가속화할 강력하고 사용자 친화적인 플랫폼을 제공합니다.

 

즉, 어떤 모델이 어떤 암종이나 약물에서 가장 예측을 잘하는가?라는 질문에 답을 제공하는 도구

웹 서버(https://scdrugmap.com/)를 통해 누구나 쉽게 모델을 실험하고 약물 저항성 메커니즘을 분석할 수 있도록 지원함.

 

1. Idea

  • scDrugMap의 3가지 핵심 요소
    • 컴퓨팅 파이프라인 및 벤치마킹 플랫폼: 사용자는 명령줄 도구(Command-line Tool)나 직관적인 웹 서버를 통해 시스템에 접근
    • 모델 및 학습 전략 선택:
      • 8개의 단일 세포 특화 모델(scFMs)과 2개의 일반 대형 언어 모델(LLMs) 중에서 선택
      • 학습 방식으로는 모델의 가중치를 고정하는 레이어 동결(Layer-freezing) 방식과 효율적인 미세 조정을 위한 LoRA(Low-Rank Adaptation) 방식을 지원합니다.
    • 예측 결과 도출: 2개의 큐레이션된 데이터베이스를 활용하여 최종적으로 세포가 특정 약물에 민감(Sensitive)한지 또는 저항성(Resistant)을 보이는지 예측
  • 벤치마킹 카테고리
    • 조직 유형(Tissue type): 세포주, 골수 흡인물, 종양 조직, 말초혈액 단핵세포(PBMC), 오가노이드 등.
    • 약물 유형(Drug type): 표적 치료제, 화학 요법, 면역 요법.
    • 암 종류(Cancer type): 폐암, 다발성 골수종(MM), 흑색종, 급성 림프구 백혈병(ALL) 등 총 14개 이상의 암종.

2. Materials & Methods

  • 주요 데이터 컬렉션(Primary Data Collection, Fig. 1c): 23개의 연구에서 수집된 36개의 데이터셋(326,751개 세포)으로 구성됩니다. 막대 그래프에서 어두운 색상은 민감한 세포를, 밝은 색상은 저항성 세포의 수를 나타냅니다. 폐암, 다발성 골수종, 흑색종 등이 큰 비중을 차지합니다.
  • 검증 데이터 컬렉션(Validation Data Collection, Fig. 1d): 모델의 일반화 능력을 확인하기 위해 별도로 수집된 외부 데이터셋입니다. 고형암에 초점을 맞춘 24개의 데이터셋이 포함되어 있으며, 난소암, 비소세포폐암(NSCLC), 췌장암 등 다양한 암종을 망라합니다.

3. Evaluation & Findings

3.1 Pooled-data evaluation in primary data collection

  • 목적: 약물 반응(Drug Response)예측
    개별 세포가 특정 약물에 대해 민감(Sensitive)한지 또는 저항성(Resistant)을 보이는지를 확인
  • F1 score: 데이터가 불균형할 때(예: 암 환자와 정상인 비율이 크게 차이 날 때) 모델이 얼마나 정답을 잘 맞히는지 정확하게 보여주는 점수. 정밀도(모델이 "양성(Positive)"이라고 예측한 것들 중, 실제로 진짜 양성 비율)와 재현율(실제 양성인 전체 샘플 중, 모델이 양성이라고 찾아낸 비율)의 조화 평균임. 두 지표가 모두 균형 있게 높을 때만 점수를 줌.

주관적 해석)

  • 데이터 수와 성능이 항상 비례하지는 않으며, 데이터가 적은 카테고리에서 성능이 불안정한 모습이 관찰
    • 적은 데이터에서의 높은 점수(역설적 결과): 소스에 따르면 전립선암(10,982개 세포)이나 췌장암(6,136개 세포)에서 특정 모델들이 매우 높은 F1 점수를 보였는데, 보고서는 이것이 오히려 상대적으로 작은 샘플 사이즈와 심각한 클래스 불균형 때문. 통계적 착시효과
    • 개별 세포의 유전자 발현량만 보는 것이 아니라, 다양한 컨텍스트(문맥) 정보를 함께 활용하기 때문으로 생각됨.
    • scGPT는 배치(batch), 양상(modality), 섭동(perturbation) 조건과 같은 메타 정보(Condition Tokens) 입력에 포함.
    • CellPLM 같은 모델은 세포를 단어로, 조직(tissue)을 문장으로 취급
    • Foundation의 경우, 입력값으로 유전자 발현량 외에도 데이터의 출처를 나타내는 **'S'(source)**와 총 유전자 발현량을 나타내는 'T'(target) 지표를 함께 사용

 

  1. 레이어 동결(Layer-freezing) 전략 결과
    • scFoundation의 압도적 우위: * 세포주(Cell line) 데이터에서 평균 F1 0.971로 최고점 기록.
      • 대부분의 데이터셋에서 타 모델 대비 일관되게 우수한 성능 입증.
    • 시나리오별 특화 모델:
      • LLaMa3: CAR-T 치료 체계(F1: 0.875), 전립선암, 췌장암 분야에서 scFoundation과 대등한 성과.
      • scGPT: 카보플라틴(Carboplatin) 치료 체계(F1: 0.882)에서 최적의 성능 발휘.
    • 성능 하위 모델:
      • CellLM / scBERT: PBMC 데이터에서 한계 노출.
      • Geneformer: 면역 요법(Immunotherapy) 데이터셋에서 낮은 성능 기록.
  2. 미세 조정(Fine-tuning) 전략 결과
    • 전반적인 성능 향상
    • scFoundation의 시장 지배력:
      • 조직별: 모든 카테고리(종양 0.990, 골수 0.962, PBMC 0.940, 세포주 0.947)에서 평균 F1 점수 1위.
      • 약물별: 화학 요법(0.996) 및 표적 치료(0.953)를 포함한 대부분의 영역에서 최고 성능.
    • scGPT의 특정 분야 강세:
      • 흑색종(Melanoma) 암종 및 베무라페닙(Vemurafenib) 요법 예측에 한해서는 scFoundation을 제치고 전체 1위

3.2 Cross-data evaluation in primary data collection

  • 일반화 능력 평가 목적, 이전에 본 적 없는 독립적인 데이터셋(unseen datasets)에 테스트
  • 새로운 환자 데이터를 접했을 때의 신약 반응 예측(de novo drug response prediction) 성능을 확인
  • 동일한 조직이나 약물 카테고리 내에 있더라도 서로 다른 연구실이나 플랫폼에서 생성된 데이터 간의 차이(배치 효과 등)를 모델이 극복할 수 있는지 측정하는 것이 목적
  • 통합 데이터(pooled-data) 평가에 비해 훨씬 까다로운 조건이었기 때문에, 전반적으로 모든 모델의 성능이 하락하는 경향을 보임.
    1. 레이어 동결(Layer-freezing) 전략 결과
      • scGPT: 종양 조직(F1 0.858)에서 다른 모델들을 제치고 유의미한 1위 달성.
      • UCE: 종양 조직 및 화학 요법 전반에서 우수한 성적.
      • scFoundation: 다발성 골수종(MM) 특정 분야에서 강세(0.734).
      • LLaMa3: 성능 수치는 아주 높지 않으나, 암 종류별 편차가 가장 적어 안정적임.
    2. 미세 조정(Fine-tuning) 전략 결과
      • UCE의 지배력: 파인튜닝 후 종양 조직, 표적 치료, 특정 항암제(파클리탁셀) 등 다수 분야에서 1위 차지.
        • 종양 조직(0.774), 표적 치료(0.549), 파클리탁셀 요법(0.677)
      • scFoundation의 약점 노출: 통합 데이터에서는 강했지만, 외부 데이터로 넘어가는 일반화 성능은 오히려 감소함 (특히 이브루티닙 요법에서 부진).
      • CellPLM: 면역 요법 분야에서 존재감을 드러내며 2위 기록.
  • 데이터가 잘 정제된 통합 환경에서는 scFoundation이 유리
    하지만, 실제 임상 현장처럼 외부 데이터를 다뤄야 할 때는 UCE나 scGPT가 더 나은 선택일 수 있음.
  • 대부분의 모델이 F1 0.8을 넘기지 못함
    아직 AI가 한 번도 본 적 없는 새로운 환자 데이터를 완벽하게 예측하기엔 개선의 여지가 많음을 시사함.

figure3. legend

  • 조직 유형 (Tissue type):
        ◦ 세포주(Cell line): 분홍색
        ◦ 골수 흡인물(Bone marrow): 보라색
        ◦ 종양 조직(Tumor tissue): 초록색
        ◦ 말초혈액 단핵세포(PBMC): 주황색
    약물 유형 (Drug type):
        ◦ 표적 치료(Targeted therapy): 갈색/빨간색 계열
        ◦ 화학 요법(Chemotherapy): 파란색
        ◦ 면역 요법(Immunotherapy): 노란색
    치료 체계 (Regimen type): '화학 요법(Chemotherapy)'이라는 큰 카테고리 안에서도, 사용되는 약물에 따라 세포의 반응 기전이 완전히 다르기 때문
        ◦ 파클리탁셀(Paclitaxel): 하늘색
        ◦ 이브루티닙(Ibrutinib): 빨간색

임베딩 시각화:

scFoundation과 scGPT가 약물 내성 세포와 약물 민감성 세포를 효과적으로 구분함.

다른 모델들은 제한적인 구분 능력을 보임.

3.3 Few-shot learning for drug response prediction

  • 단일 세포나 생물학적 데이터에 특화되지 않은 일반 대형 언어 모델(General-purpose Foundation Model)인 GPT-4o-mini가 단일 세포 전사체 데이터를 바탕으로 약물 반응을 얼마나 잘 예측할 수 있는지 평가함.
  • 분명한 성능의 한계를 보임
     
    • 전반적 부진: 대부분의 항목에서 F1 점수가 0.5 근처이거나 그 이하를 기록 (동전 던지기와 비슷한 수준).
    • 조직별 격차:
      •  간암(0.690): 유일하게 어느 정도 유의미한 예측력을 보임.
      • 골수/세포주(0.4대): 매우 낮은 성능을 기록하여 데이터 해석에 실패함.
    • 치료 요법별: 표적/화학 요법은 0.5 수준을 유지했으나, 면역 요법(0.391) 및 특정 암종(췌장암 0.190)에서는 예측이 거의 불가능한 수준이었음.
    > 프롬프트 전략: "방법론의 차이"
    • 정보량: 제공하는 유전자 수를 늘려도(10개 → 100개) 성능 향상은 미미함.
    • 사고 방식(CoT): Chain of Thought(단계별 사고) 기법을 적용했을 때, 단순히 결과만 묻는 것보다 성능이 상대적으로 개선됨.
    > 결론 및 시사점: "전문가(scFM)의 필요성"
    • 도메인 학습 필수: 일반 모델은 단일 세포 데이터의 복잡한 맥락을 이해하는 데 한계가 명확함.
    • 결론: 생물정보학 분야에서 신뢰할 수 있는 AI를 구축하려면,
      반드시 단일 세포 데이터로 사전 학습된 모델(scFM)**을 쓰거나 강력한 도메인 적응(Domain Adaptation) 과정을 거쳐야함.

3.4 Model evaluation in the validation data collection

 

  • 최신성 보장: 모델이 미리 답을 외웠을 가능성을 없애기 위해 2024년 1월 이후 발표된 최신 연구 데이터만 사용.
  • 다양한 환경: 오가노이드(미니 장기), 고형암(폐암, 췌장암 등) 등 복잡한 임상 환경에서의 견고함(Robustness) 측정.
  • 전략: 모델의 구조를 건드리지 않는 레이어 동결(Layer-freezing) 방식을 채택하여 모델 본연의 실력을 평가.

 

  • scFoundation의 압도적 우위: 모든 지표(F1, AUROC 등)에서 1위를 차지하며 '범용성' 입증.
    • 조직: 오가노이드(0.973)에서 경이로운 성적을 거둠.
    • 암종: **비소세포폐암(0.997)**과 유방암(0.985)에서 거의 완벽에 가까운 예측 수행.
    • 약물: 면역 요법(0.915)을 포함한 모든 치료 유형에서 고르게 높은 성능 유지.
  • 기타 모델의 성능:
    • scGPT / tGPT: 종양 조직에서는 선전했으나, 세포주(Cell line) 데이터에서는 scFoundation 대비 성능이 크게 하락함.
    • 약점 노출: scGPT의 경우 난소암과 흑색종 예측에서 타 모델(CellPLM 등)보다 현저히 낮은 점수를 기록하며 기복을 보임.

4. Take away

  • 왜 binary문제로 풀엇을까? 모델의 한계때문?? 그래서 오히려 60개 데이터베이스를 확보할 수 있었던것 같기도하고
  • sensitivity/registance 기준은 뭐고 어떻게 데이터를 확보했는지. 그리고 특히 sensitiity 데이터가 많을 것 같은데
    • umap상에서 보면 각 cell type별로 label불균형이 심하다는 것을 확인할 수 있음.
  • scFoundation 성능도 준수, umap에서도 구분되어있음. 근데 같은 cell인데 cluster가 흩어진 이유가 무엇일까..
  • scGPT는 umap에서 구분이 뛰어난 반면, scFoudation 성능과 꽤나 격차가 있음.
  • USE 외 다른 모델들의 umap의 구분력이 없지만 그럼에도 특정 zero-shot 분야에서 두각이 나타나기도함.