Attention Guided Mechanism Interpretable Drug-Gene Interaction (MIDI) Modeling
for Cancer Drug Response Prediction and Target Effect Explanation
https://www.biorxiv.org/content/10.1101/2025.03.31.646490v1.full
2025, biorxiv
Drug Response예측을 위한 해석가능한(Drug ->gene) 모델, MIDI (transformer 기반)
1. Problem
- 표적화 메커니즘을 규명하는 데이터 기반 기법이 아직 없다.
2. Related Work
- TCRP, 2021, nature cancer 게재 됨(221회 인용). few-shot learning 을 통해 성능을 향상시킨 모델로써
해석 가능한 모델이라는 점에서 같이 비교한 것 같음. - TCRP 모델 예측 결과가 해당 표적 경로 내의 분자 마커로 설명하는데, figure5라던가 application 섹션 참고할만 함.
- TCRP 대비 25%, 선형 회귀 대비 40%, 랜덤 포레스트 대비 45%의 성능 향상을 이룸.
- 훈련 데이터가 매우 적은 상황(ex. 갑상선암의 경우 암세포주가 5개뿐이며, 그중 3개는 훈련에, 2개는 테스트에 사용)에서는 TCRP가 성능이 우세함.
3. Idea
3.1. loss function
L_mse: 예측 IC50 vs 실제 IC50 차이. 기본 regression loss.
L_scl (Supervised Contrastive Loss):
target gene emb ← drug emb와 가까워지도록
non-target gene emb ← drug emb와 멀어지도록
L_sscl (Self-Supervised Contrastive Loss):
같은 drug를 augmentation해서, 두 버전 생성 두 버전의 embedding이 서로 가까워지도록
→ IC50 loss + contrastive loss 동시에 역전파
→ Geneformer 가중치를 fine-tuning

3.2. Geneformer = identificiation gene embedding
= BERT 기반 foundation model
→ 수백만 개 single-cell 데이터로 사전학습됨
→ 각 gene ID token의 embedding이 이미 의미를 가짐
3.3 Cross Attention
Q = Drug emb (1, d)
K = Gene ID emb (N_genes, d) ← expression/mutation 아님
A_gene = softmax(Q·K^T / T) (1, N_genes) → (N_genes,) scalar per gene
A_gene ⊙ Gene emb (element wise multiple) ← identification/expression/mutation addition
↓
Flatten → Projection → (d,)
↓
Drug emb와 Addition → IC50 예측


4. Materials & Methods
- Cell :
- CCLE, 24가지 약물을 포함하는 총 471개의 암세포주를 수집하여 학습에 사용함.
- Drug-Gene
- DGIdb, GDSC, PubChem 등
- Drug-Cell
- train 9024쌍, test 2280쌍
- (transformer면..학습 데이터양이 적지 않나.. 걱정.)
5. Evaluation & Findings
- 비교 모델: 기존 계산 방법(선형 회귀, 랜덤 포레스트) 및 TCRP
- TCRP, 2021, nature cancer 게재 됨(221회 인용). few-shot learning 을 통해 성능을 향상시킨 모델로써
해석 가능한 모델이라는 점에서 같이 비교한 것 같음. - TCRP 모델 예측 결과가 해당 표적 경로 내의 분자 마커로 설명하는데, figure5라던가 application 섹션 참고할만 함.
- TCRP 대비 25%, 선형 회귀 대비 40%, 랜덤 포레스트 대비 45%의 성능 향상을 이룸.
- 훈련 데이터가 매우 적은 상황(ex. 갑상선암의 경우 암세포주가 5개뿐이며, 그중 3개는 훈련에, 2개는 테스트에 사용)에서는 TCRP가 성능이 우세함.
- TCRP, 2021, nature cancer 게재 됨(221회 인용). few-shot learning 을 통해 성능을 향상시킨 모델로써
- Random split(모든 암세포주가 들어갈 수 있도록, 각 세포주별로 8:2), cross valdiation을 수행함.
- 담관암이나 전립선암처럼 세포주 수가 매우 적은 암세포주의 경우,
세포주 수가 5개 미만인 모든 암세포주를 훈련 데이터로 사용 - 50 epoch, MSE loss




6. Take away
- attention score를 gene 벡터에 weight한 구조. 이 방법이 가능한 이유는…general gene에 대해서 drug와의 관계를 학습한 점수를 cell 맥락의 gene 임베딩 벡터에 가중합하는 구조이기 때문.
- drug-target 방향으로 contrative learning을 하는 것이 더 학습을 어렵게 만들지 않는가 하는 걱정
- R^2, RMSE와 같은 지표가 그림상 잘 안보여서..비교가 어려움
- 24가지 약물 x 400여개 세포 조합에 대해서만 학습함. 내 학습데이터의 반토막 수준
- 그렇기 때문에 drug-target 구조는 조금 덜 sparse했을 듯.