본문 바로가기

Paper

간단리뷰 Day 21. Learning and actioning general principles of cancer cell drug sensitivity

Learning and actioning general principles of cancer cell drug sensitivity

https://www.nature.com/articles/s41467-025-56827-5

2025, nature communication, 13 citation

cell drug sensitivity 라는 주제에 관심이 있어 읽어보게 됨. 최신 방법론 및 평가 방식에 대해 공부하고자 함.

 

암 세포주(CCL)의 약물 민감성에 대한 고속대량 스크리닝(HTS)은 항암치료(anti-tumor therapies)의 새로운 가능성을 열어줄 잠재력을 지니고 있다(holds the potential to unlock).  본 연구에서 이러한 데이터셋(고속대량 스크리닝)을 활용하여 세포주 전사체 데이터를 기반으로 약물 반응을 예측하며, 특히 모델 해석가능성과 환자 데이터에 대한 실제 임상적용(deployment on patients’ data)에 초점을 맞췄다.

우리는 LLM을 활용해 약물과 작용기전(MOA) 관련 경로를 매칭했다. 예측에 핵심적인 유전자들이 약물의 MOA 관련 경로에 농축(enriched)되어 있다는 결과는, 우리 모델이 약물 반응의 분자적 결정 요인을 효과적으로 학습했음을 시사한다. 또한, LLM이 선별한 MOA 관련 유전자(LLM-curated, MOA-genes)만을 사용함으로써 모델의 예측 정확도를 더욱 향상시켰다.

임상 전환 가능성(translatability)을 향상시키기위해, 학습에 사용된 세포주의 RNA-seq 데이터와 추론(Inference)에 사용되는 환자 샘플 데이터를 정렬(Align)했다. TCGA 샘플을 통해 검증한 결과, 환자별로 높은 점수를 받은 약물이 실제 해당 암종에 처방된 약물과 일치했다. 나아가 치사율이 매우 높은 두 고형암인 췌장암과 교모세포종 환자를 대상으로 효과적인 약물을 예측하고, 이를 실험적으로 검증했다.

 

1. Problem

  • 기존의 약물 민감도를 예측하는 모델
    - MOA 에 기반하는지
    - 편향되지 않는 방식으로 생물학적 과정을 학습했는지에 대한 조사는 아직 부족하다(is still missing from the literature).
  • 환자의 RNAseq 데이터에 활용 가능성 또한 시도되고 있으나 대부분 해결되지않았다(is still a largely unsolved issue).

3. Idea

  • 예측 모델과 Celligner이라는 비지도 정렬 전략을 결합하여 CellHit이라는 파이프라인을 구축
  • Celligner은 환자 종양 의 RNAseq 데이터와 가장 유사한 전사체 프로파일을 가진 세포주를 식별함.

Step 1. Data Acquisition

Step 2. training

3가지 모델 인풋 타입

타입 1 전사체 + 약물 특징 가장 일반적인 약물-세포주 반응 예측 모델
타입 2 전사체 전용 약물 정보 없이 세포 상태만으로 반응 예측
타입 3 LLM 선정 유전자 서브셋 LLM이 뽑아준 MOA 관련 경로 유전자만 사용 (고효율)

 

LLM 역할: 약물의 작용 기전(MOA)을 큐레이션하여 모델의 해석 능력을 높이고, 학습에 사용할 핵심 유전자(Feature Selection)를 선정하는 데 사용.

4가지 모델 타입

  1. MLP: ReLU, AdamW, MSER loss, pytorch 사용.
  2. XGBoost: 공식 라이브러리로 구현.
  3. KRR(Kernel Regression): 커널 함수를 통합하여 선형 릿지 회귀를 확장함으로써 데이터를 명시적으로 고차원 공간으로 변환하지 않고도 비선형 관계를 모델링하기위해 사용.Scikit-Learn 라이브러리를 사용해 구현.
  4. Similarity-Regularized Matrix Factorization (SRMF): 약물의 화학 구조 유사성과 세포주의 유전자 발현 프로파일 유사성을 행렬 분해 모델의 정규화 항으로 통합. Matlab 코드를 수정 사용.

 

-> 총 20개의 서로 다른 Train/Validation/Test 데이터 분할(Split)을 통해 모델의 안정성을 검증.

Step 3. 외부 검증 및 임상 적용 (External Validation & Inference)

: 가장 성능이 좋은 모델을 선택하여 실제 환자 데이터에 적용하는 단계

  • 환자 데이터 적용 (Inference): * TCGA (The Cancer Genome Atlas)의 대량 RNA-seq 데이터. 췌장암(PDAC) 및 교모세포종(GBM) 환자 데이터.
  • 검증 방법:
    • 데이터 일치도 확인: TCGA 데이터에서 모델이 추천한 약물이 실제 NCI(미국 국립암연구소)에서 해당 암종에 권장하는 약물 지표와 일치하는지 확인.
    • 실험적 검증: 모델이 예측한 효과적인 약물을 실제 암 세포주(Primary/Commercial)에 투여하여 실험적으로 효능을 입증.
    •  

4. Materials & Methods

**Drug and cells Featurization

229개의 고유 약물을 데이터화하는 세 가지 방법:

준비 SMILES 확보 PubChemPy GDSC에 없는 약물 구조 식별자(SMILES)를 추출
방법 1 ECFP MolFeat 확장 연결 지문 (Extended-Connectivity Fingerprints)
방법 2 ChemBerta MolFeat 트랜스포머 기반 분자 표현형 지문
방법 3 OneHot (자체 구현) 229차원 벡터 (해당 약물 인덱스만 1, 나머지는 0)

 

18,174개의 유전자 발현 데이터를 처리하는 두 가지 방법:

  • 공통 전처리: 모든 발현값에 log2(x+1) 정규화 적용.
방법 1 Raw Expression - 정규화된 18,174개 유전자 발현값 전체 사용
방법 2 PCA (차원 축소) Scikit-learn (PCA) 전체 분산의 90%를 설명하는 395개의 주성분만 사용

 

** MOA-pathway annotation

특정 약물이 작용 기전(MOA)에 관여할 가능성이 있는 경로를 라벨링하는 단계의 3가지 전략: 

 

  • GPT-4 based pipeline: 가장 빠르고 간편하지만 비용이 발생하는 방식
    • 단계 1 (텍스트 확장): 약물 메타데이터(이름, 타겟)를 GPT-4에 넣어 상세한 작용 기전 설명서로 변환.
    • 단계 2 (경로 추출): 생성된 설명서를 다시 GPT-4에 넣어 Top 15 Reactome 경로(Level 1)를 선정하고 이유를 추출.
    • 핵심: Function Calling: 결과를 정해진 JSON 스키마로 받아 데이터 파이프라인에 자동 통합.
      • Reactome L1 제한: AI가 아무 말이나 하지 않도록 Reactome 데이터베이스의 최상위 카테고리(Level 1) 내에서만 선택하도록 강제(Constraint).
  • Mixtral pipeline: 비용 효율적이고 재현 가능한 로컬 구축 방식
    • 약물의 타겟(Target Protein)이 특정 경로의 구성 원소(Member)로 등록되어 있는지 확인하는 기준. (예: 약물 A의 타겟이 'EGFR'이고, 'EGFR'이 '신호전달 경로'에 속해 있다면 매칭)
    • 단계 1 (CoT): Chain-of-Thought(단계별 사고) 프롬프트를 통해 약물 설명을 생성.
    • 단계 2 (RAG): AI의 거짓말(Hallucination)을 막기 위해 Biopython(Entrez)으로 해당 약물의 PubMed 논문 초록 상위 10개를 검색하여 내용을 보정.
    • 단계 3 (Self-Consistency): 
      • Self-Consistency: 서로 다른 랜덤 시드(Seed)로 여러 번 수행하여, 최소 2회 이상 공통적으로 선택된 경로만 최종 채택하여 허위 양성(False Positive)을 제거
      • Guidance 라이브러리: Mixtral에 없는 'Function Calling' 기능을 대신하여, 출력 형식을 JSON으로 강제하고 '추론 근거'를 먼저 말한 뒤 '경로'를 선택하게 하여 논리적 일관성을 높임.
    • 핵심 기술:
      • Guidance 라이브러리: Mixtral은 JSON 출력이 약하므로, 이 라이브러리를 써서 강제로 구조화된 출력 유도.
      • vLLM & GPTQ: 4-bit 양자화 모델을 사용하여 V100(32GB) GPU에서도 고속 추론 가능하게 최적화.
  • DB 병합: Reactome API로 얻은 타겟 정보와 위 AI 추출 결과를 합쳐서 최종 트레이닝 셋 구성.
    Reactome DB 직접 매핑 전략 (2가지):
    • 방법 A: 타겟 유전자 기준 (Target-based): Reactome API 활용: 약물의 알려진 타겟(단백질)이 포함된 모든 Level 1 경로를 추출합니다.
    • 방법 B: 기등록 화합물 기준 (Ligand-based): Reactome의 ReferenceTherapeutic 클래스 데이터를 조회하여, 해당 경로에 이미 등록된 약물(리간드) 정보를 가져옵니다.
    • ID 정규화: PubChemPy를 사용하여 서로 다른 소스(Guide to Pharmacology 등)의 약물 ID를 PubChem ID로 통일하여 GDSC 데이터와 연동합니다. (최종 66개 약물 성공)

**Model interpretability

1. 유전자 중요도 산출 (Importance Computation)

단일 지표의 편향을 피하기 위해 두 가지 상호 보완적인 방법을 결합하여 엄격한 기준을 적용했습니다.

  • 선택 기준: $(\text{SHAP Importance} > 0) \cap (\text{Permutation Importance} > 0)$ 일 때만 해당 유전자가 유의미하다고 판단.
  • 방법론:
    • TreeSHAP: 각 유전자가 개별 예측값에 기여하는 정도를 정확하고 빠르게 계산.
    • Permutation Importance: 특정 유전자 값을 무작위로 섞었을 때 모델 성능(Correlation)이 얼마나 떨어지는지 측정.
  • 최적화 기법 (High-throughput):
    1. Filtering: XGBoost의 내장 중요도(Impurity 기반)를 먼저 사용해 19k개 유전자를 1/10 수준으로 필터링.
    2. Acceleration: Numba로 강화된 루틴과 GPU 가속 XGBoost를 사용하여 대량의 연산을 배치(Batch) 처리.

2. 생물학적 타당성 검증 (Validation)

모델이 뽑은 유전자가 실제 약물 타겟과 관련이 있는지 확인하는 단계입니다.

  • 표적 회복(Recovery): 모델이 '중요하다'고 뽑은 유전자 목록에 실제 약물의 타겟 유전자나 그 경로(Pathway) 상의 유전자가 포함되는지 확인.
  • 경로 농축 분석 (Pathway Enrichment):
    • 도구: GSEAPY (Enrichr), Reactome 2022 데이터베이스 사용.
    • MOA 매칭: 농축된 경로가 해당 약물의 MOA 경로와 직접 일치하거나, Reactome 계층 구조상 부모/자식 관계에 있으면 매칭 성공으로 간주.
  • 상관관계 분석: 실제 IC50(약물 민감도), 예측 IC50, 유전자 발현량, SHAP 값을 동시에 시각화하여 일관성 확인 (예: Venetoclax와 BCL2 유전자).

3. 심화 분석: 필수 유전자 및 반응 공간

모델의 해석 결과를 임상/실험 데이터와 연결하는 고차원 분석입니다.

A. 유전자 필수성 분석 (Gene Essentiality)

  • 가설: 음수(-)의 SHAP 값을 가진 유전자는 억제 시 약물 효능을 높일 가능성이 큼.
  • 검증: CRISPR/Cas9 스크리닝 데이터(Pacini et al.)와 비교하여 모델이 뽑은 핵심 유전자가 실제로 세포 생존에 필수적인 유전자(Essential Genes)인지 확인.
  • 네트워크: STRING DB를 사용하여 단백질 간 상호작용(PPI) 네트워크 구축 및 시각화.

B. 약물 반응 공간 (Responsiveness Space)

  • 개념: 세포주를 유전자 발현량이 아닌, **286개 약물에 대한 예측 반응값(벡터)**으로 정의.
  • 활용: faiss 라이브러리를 사용해 이 반응 공간에서 가장 유사한 약물 반응을 보이는 이웃 세포주를 고속 검색.
Feature Importance SHAP (TreeSHAP), XGBoost (GPU), Numba SHAP & Permutation 교집합 추출
Enrichment GSEAPY, python-igraph Reactome 계층 구조 기반 MOA 매칭
Clustering Seaborn (clustermap), Ward method 약물-경로 간의 패턴 그룹화
Similarity Search faiss 286차원 반응 벡터 기반 근접 이웃 검색

 

5. Evaluation & Findings

  • 전사체 데이터는 세포주 약물 민감도 예측에 매우 중요한 요소임
    • 세포주 발현 데이터만 vs 약물과 세포주 함께 고려한 모델과 유사한 성능을 보임.
    • 많은 약물 모델이 세포주 기본 전사체 데이터만을 기반으로 세포주 약물 민감도에 대한 메커니즘을 학습하고 있음
  • 약물 특이적 모델을 사용한 여러 이점:
    • PRISM과 같은 대규모 데이터셋을 다룰 때 매우 유용
    • 새로운 데이터셋과 약물에 쉽게 적용
    • XGBoost 기반 모델을 통해 예측 결과를 쉽게 해석하고 모델이 어떤 유전자 발현 특징을 활용하는지 설명할 수 있다
  • SHAP 중요도, 순열 중요도를 통한 해석가능성:
    • 약물 효능의 차이로, 특정 암 유형의 기저에 있는 핵심 분자 메커니즘을 밝혀냄.
    • 특징 중요도를 결정하기 위해 사용한 두 가지 기준이 중요한 발현 특징을 식별하는 데 매우 엄격한 요건을 설정에 도움을 줌.
  • LLM 활용
    • 각 약물의 작용기전(MOA) 설명을 개선하고, 이를 참조 지식 기반에서 의미론적으로 가장 유사한 경로와 연결하는 전략을 사용
  • 임상적용 가능성을 보여줌
    • 실험실의 세포주(CCL) 데이터로 학습한 모델을 실제 환자(TCGA)에게 적용하기 위해 Celligner라는 도구를 사용.

"Genes crucial for prediction are enriched in drug-MOAs, suggesting that our models learn the molecular determinants of response."
구조: [Genes (주어) + crucial for prediction (수식)] + are enriched (동사) + in drug-MOAs, + [suggesting that ~ (분사구문: 앞 문장의 결과)]

모델이 예측에 중요하다고 뽑은 유전자들을 보니, 마침 그 약물의 작용 기전(MOA)과 관련된 유전자들이었습니다. 2. 이것이 시사하는 바(suggesting)는? 우리 인공지능 모델이 단순히 숫자만 맞추는 게 아니라, 실제로 약물이 작용하는 '생물학적 원리(분자적 결정 요인)'를 제대로 배우고 있다는 증거라는 것

 

"To enhance translatability, we align RNAseq data from CCLs, used for training, to those from patient samples, used for inference."
구조: To enhance translatability (목적), + we (주어) + align (동사) + A (RNAseq data from CCLs, used for training) + to B (those from patient samples, used for inference).

학습에 쓴 세포 데이터(A)를 실제 예측 대상인 환자 데이터(B)의 기준에 맞춰 조정(Align)했다