본문 바로가기

Paper

Attention Guided Mechanism Interpretable Drug-Gene Interaction (MIDI) Modeling for Cancer Drug Response Prediction and Target Effect Explanation

Attention Guided Mechanism Interpretable Drug-Gene Interaction (MIDI) Modeling 
for Cancer Drug Response Prediction and Target Effect Explanation

https://www.biorxiv.org/content/10.1101/2025.03.31.646490v1.full

2025, biorxiv

Drug Response예측을 위한 해석가능한(Drug ->gene) 모델, MIDI (transformer 기반)

 

 

1. Problem

  • 표적화 메커니즘을 규명하는 데이터 기반 기법이 아직 없다.

2. Related Work

  • TCRP, 2021, nature cancer 게재 됨(221회 인용). few-shot learning 을 통해 성능을 향상시킨 모델로써
    해석 가능한 모델이라는 점에서 같이 비교한 것 같음.
  • TCRP 모델 예측 결과가 해당 표적 경로 내의 분자 마커로 설명하는데, figure5라던가 application 섹션 참고할만 함.
  • TCRP 대비 25%, 선형 회귀 대비 40%, 랜덤 포레스트 대비 45%의 성능 향상을 이룸.
    • 훈련 데이터가 매우 적은 상황(ex. 갑상선암의 경우 암세포주가 5개뿐이며, 그중 3개는 훈련에, 2개는 테스트에 사용)에서는 TCRP가 성능이 우세함.

3. Idea

3.1. loss function

L_mse: 예측 IC50 vs 실제 IC50 차이. 기본 regression loss.

 

L_scl (Supervised Contrastive Loss):
target gene emb     ← drug emb와 가까워지도록
non-target gene emb ← drug emb와 멀어지도록

 

L_sscl (Self-Supervised Contrastive Loss):

같은 drug를 augmentation해서, 두 버전 생성 두 버전의 embedding이 서로 가까워지도록


→ IC50 loss + contrastive loss 동시에 역전파
→ Geneformer 가중치를 fine-tuning

 

3.2. Geneformer  = identificiation gene embedding

= BERT 기반 foundation model
→ 수백만 개 single-cell 데이터로 사전학습됨
→ 각 gene ID token의 embedding이 이미 의미를 가짐

 

3.3 Cross Attention

Q = Drug emb (1, d)

K = Gene ID emb (N_genes, d) ← expression/mutation 아님

A_gene = softmax(Q·K^T / T) (1, N_genes) → (N_genes,) scalar per gene

 

A_gene ⊙ Gene emb (element wise multiple) ← identification/expression/mutation addition
                              ↓
                    Flatten → Projection → (d,)
                              ↓
              Drug emb와 Addition → IC50 예측

 

 

4. Materials & Methods

  • Cell :
    •  CCLE, 24가지 약물을 포함하는 총 471개의 암세포주를 수집하여 학습에 사용함.
  • Drug-Gene
    • DGIdb, GDSC, PubChem 등
  • Drug-Cell
    • train 9024쌍, test 2280쌍
    • (transformer면..학습 데이터양이 적지 않나.. 걱정.)

5. Evaluation & Findings

  • 비교 모델: 기존 계산 방법(선형 회귀, 랜덤 포레스트) 및 TCRP
    • TCRP, 2021, nature cancer 게재 됨(221회 인용). few-shot learning 을 통해 성능을 향상시킨 모델로써
      해석 가능한 모델이라는 점에서 같이 비교한 것 같음.
    • TCRP 모델 예측 결과가 해당 표적 경로 내의 분자 마커로 설명하는데, figure5라던가 application 섹션 참고할만 함.
    • TCRP 대비 25%, 선형 회귀 대비 40%, 랜덤 포레스트 대비 45%의 성능 향상을 이룸.
      • 훈련 데이터가 매우 적은 상황(ex. 갑상선암의 경우 암세포주가 5개뿐이며, 그중 3개는 훈련에, 2개는 테스트에 사용)에서는 TCRP가 성능이 우세함.
  • Random split(모든 암세포주가 들어갈 수 있도록, 각 세포주별로 8:2), cross valdiation을 수행함.
  • 담관암이나 전립선암처럼 세포주 수가 매우 적은 암세포주의 경우,
    세포주 수가 5개 미만인 모든 암세포주를 훈련 데이터로 사용
  • 50 epoch, MSE loss

 

 

 

6. Take away

  • attention score를 gene 벡터에 weight한 구조. 이 방법이 가능한 이유는…general gene에 대해서 drug와의 관계를 학습한 점수를 cell 맥락의 gene 임베딩 벡터에 가중합하는 구조이기 때문.
  • drug-target 방향으로 contrative learning을 하는 것이 더 학습을 어렵게 만들지 않는가 하는 걱정
  • R^2, RMSE와 같은 지표가 그림상 잘 안보여서..비교가 어려움
  •  24가지 약물 x 400여개 세포 조합에 대해서만 학습함. 내 학습데이터의 반토막 수준
    • 그렇기 때문에 drug-target 구조는 조금 덜 sparse했을 듯.