Attention Guided Mechanism Interpretable Drug-Gene Interaction (MIDI) Modeling for Cancer Drug Response Prediction and Target Effect Explanation

Attention Guided Mechanism Interpretable Drug-Gene Interaction (MIDI) Modeling
for Cancer Drug Response Prediction and Target Effect Explanation

https://www.biorxiv.org/content/10.1101/2025.03.31.646490v1.full

2025, biorxiv

Drug Response예측을 위한 해석가능한(Drug ->gene) 모델, MIDI (transformer 기반)

1. Problem

표적화 메커니즘을 규명하는 데이터 기반 기법이 아직 없다.

2. Related Work

TCRP, 2021, nature cancer 게재 됨(221회 인용). few-shot learning 을 통해 성능을 향상시킨 모델로써
해석 가능한 모델이라는 점에서 같이 비교한 것 같음.
TCRP 모델 예측 결과가 해당 표적 경로 내의 분자 마커로 설명하는데, figure5라던가 application 섹션 참고할만 함.
TCRP 대비 25%, 선형 회귀 대비 40%, 랜덤 포레스트 대비 45%의 성능 향상을 이룸.
- 훈련 데이터가 매우 적은 상황(ex. 갑상선암의 경우 암세포주가 5개뿐이며, 그중 3개는 훈련에, 2개는 테스트에 사용)에서는 TCRP가 성능이 우세함.

3. Idea

3.1. loss function

L_mse: 예측 IC50 vs 실제 IC50 차이. 기본 regression loss.

L_scl (Supervised Contrastive Loss):
target gene emb ← drug emb와 가까워지도록
non-target gene emb ← drug emb와 멀어지도록

L_sscl (Self-Supervised Contrastive Loss):

같은 drug를 augmentation해서, 두 버전 생성 두 버전의 embedding이 서로 가까워지도록

→ IC50 loss + contrastive loss 동시에 역전파
→ Geneformer 가중치를 fine-tuning

3.2. Geneformer = identificiation gene embedding

= BERT 기반 foundation model
→ 수백만 개 single-cell 데이터로 사전학습됨
→ 각 gene ID token의 embedding이 이미 의미를 가짐

3.3 Cross Attention

Q = Drug emb (1, d)

K = Gene ID emb (N_genes, d) ← expression/mutation 아님

A_gene = softmax(Q·K^T / T) (1, N_genes) → (N_genes,) scalar per gene

A_gene ⊙ Gene emb (element wise multiple) ← identification/expression/mutation addition
                              ↓
                    Flatten → Projection → (d,)
                              ↓
              Drug emb와 Addition → IC50 예측

4. Materials & Methods

Cell :
- CCLE, 24가지 약물을 포함하는 총 471개의 암세포주를 수집하여 학습에 사용함.
Drug-Gene
- DGIdb, GDSC, PubChem 등
Drug-Cell
- train 9024쌍, test 2280쌍
- (transformer면..학습 데이터양이 적지 않나.. 걱정.)

5. Evaluation & Findings

비교 모델: 기존 계산 방법(선형 회귀, 랜덤 포레스트) 및 TCRP
- TCRP, 2021, nature cancer 게재 됨(221회 인용). few-shot learning 을 통해 성능을 향상시킨 모델로써
  해석 가능한 모델이라는 점에서 같이 비교한 것 같음.
- TCRP 모델 예측 결과가 해당 표적 경로 내의 분자 마커로 설명하는데, figure5라던가 application 섹션 참고할만 함.
- TCRP 대비 25%, 선형 회귀 대비 40%, 랜덤 포레스트 대비 45%의 성능 향상을 이룸.
  - 훈련 데이터가 매우 적은 상황(ex. 갑상선암의 경우 암세포주가 5개뿐이며, 그중 3개는 훈련에, 2개는 테스트에 사용)에서는 TCRP가 성능이 우세함.
Random split(모든 암세포주가 들어갈 수 있도록, 각 세포주별로 8:2), cross valdiation을 수행함.
담관암이나 전립선암처럼 세포주 수가 매우 적은 암세포주의 경우,
세포주 수가 5개 미만인 모든 암세포주를 훈련 데이터로 사용
50 epoch, MSE loss

6. Take away

attention score를 gene 벡터에 weight한 구조. 이 방법이 가능한 이유는…general gene에 대해서 drug와의 관계를 학습한 점수를 cell 맥락의 gene 임베딩 벡터에 가중합하는 구조이기 때문.
drug-target 방향으로 contrative learning을 하는 것이 더 학습을 어렵게 만들지 않는가 하는 걱정
R^2, RMSE와 같은 지표가 그림상 잘 안보여서..비교가 어려움
24가지 약물 x 400여개 세포 조합에 대해서만 학습함. 내 학습데이터의 반토막 수준
- 그렇기 때문에 drug-target 구조는 조금 덜 sparse했을 듯.

저작자표시 (새창열림)

'Paper' 카테고리의 다른 글

Improving drug response prediction via integrating gene relationships with deep learning (0)	2026.05.31
Visible neural networks for multi-omics integration: a critical review (0)	2026.05.31
Multimodal AI predicts clinical outcomes of drug combinations from preclinical data (0)	2026.05.20
Large-scale chemical language representations capture molecular structure and properties (0)	2026.05.16
PGS 카탈로그 소개 (0)	2026.04.20

Bioinfomatics

Attention Guided Mechanism Interpretable Drug-Gene Interaction (MIDI) Modeling for Cancer Drug Response Prediction and Target Effect Explanation