Multimodal AI predicts clinical outcomes
of drug combinations from preclinical data
https://arxiv.org/html/2503.02781v2
2025, arixv, 8 citation
단순 예측 모델에서 벗어나 아스트라제네카와 협업으로 임상까지 연결한 케이스를 살펴보기 위함.
전임상 데이터(preclinical data)로부터 임상 결과를 예측하는 것은 약물 조합의 안전성 및 유효성을 식별을위해 필수적이다. 이는 후기 단계(late-stage)의 임상 실패를 줄이고 정밀 치료법 개발을 가속화할 것이다. 현재 AI 모델은 구조적 특징이나 표적 기반 특징에 의존하지만, 정확하고 임상적으로 의미있는 예측(clinically relevant predictions)에 필수적인 멀티모달 데이터를 통합하는 데는 한계가 있다.
본 연구에서는 구조, 경로, 세포 생존능력(viability), 전사체 데이터를 학습하여 953개의 임상 결과와 21,842개의 화합물(승인된 약물과 개발 중인 신약의 조합 포함)에 걸쳐 약물 조합 효과를 예측하는 다중 모달 AI 모델인 MADRIGAL을 소개한다.
MADRIGAL은 attention bottleneck 모듈을 사용한다 전임상 약물 데이터 모달리티를 통합시키는 동시에 멀티 모달 학습에서 주요 과제인 학습 및 추론 과정에서 손실되는 데이터를 다룬다. Madrigal은 약물 상호작용 예측에서 단일 모달리티 방식 및 최첨단 모델보다 우수한 성능을 보이며, 모델 제거 실험을 통해 모달리티 정렬과 다중 모달리티 모두가 필수적임을 입증했다. 이 모델은 수송체 매개 상호작용을 포착하고 호중구 감소증, 빈혈, 탈모증, 저혈당증에 대한 임상 시험 간 차이와 연관와 연관시킨다. 제2형 당뇨병 및 MASH(다제내성 결장직장기 증후군)의 경우, Madrigal은 다약제 요법 결정을 지원하고 더 안전한 후보 물질 중 레스메티롬을 우선적으로 고려하도록 고려한다. 개인 맞춤형 치료로 확장하여, Madrigal은 장기 EHR 코호트와 독립적인 종양학 코호트에서 환자 수준의 이상 반응 예측을 개선하고, 원발성 급성 골수성 백혈병 샘플 및 환자 유래 이종이식 모델에서 체외 효능을 예측한다. Madrigal은 전임상 다중 모드 분석 결과를 약물 조합의 안전성 위험과 연결하고 더 안전한 조합 설계에 대한 일반화 가능한 기반을 제공한다.
1. Problem
- 기존의 약물 테스트에서는 구조기반, 표적 기반을 탈피하기위해 pathways, cell viablity 정보를 함께 사용한 것이 또 하나의 장점으로 보인다. 개인적으로 구조/표적 기반이었던 이유가 다른 모달간의 heterogenous때문에, 통합에 어려움이 있었고 성능 향상에 크게 영향을 주지 못했다는 점으로 생각되는데, 과연 어떻게 attnetion bottleneck으로 해결했는지가 흥미로운 부분이다.
- 경험적으로 예측력을 높이기위해서는 멀티 모달이 필수적이나, 문제는 손실되는 데이터이다. 논문에서도 해당 문제를 수치와 함께 보여주고 있다, figure 1.c를 보면 모든 멀티 모달이 있는 데이터는 2000여개 미만(1517개)이며 몇 십만 데이터가 함께 활용되기 어려운 부분을 보여준다.

2. Related Work
- structure-based models (DeepDDI [48], CASTER [49], GMPNN-CS [50])
- knowledge-graph models (DDKG [51]); and multimodal models (MUFFIN [52], TIGER [53])
3. Idea
- 구조 기반 약물 임베딩과 그외 모달리티에서 샘플링한 임베딩간 대조 학습(contrastive learning)을 통해 정렬
- 앵커(Anchor) 설정: 모든 소분자 화합물에서 보편적으로 얻을 수 있는 분자 구조(Structure) 모달리티를 앵커로
- 긍정적 쌍(Positive Pairs): 특정 약물 의 '구조' 데이터와 그 약물의 또 다른 가용 모달리티(예: 해당 약물의 전사체 데이터)를 하나의 쌍으로
- 부정적 쌍(Negative Pairs): 특정 약물 의 구조 데이터와 다른 약물 의 모달리티 데이터를 쌍으로 묶어 멀어지게 학습
- InfoNCE loss 변형 사용, 코사인 유사도기반 사용

- Uni-modal projector: 대조 학습을 할 수 있도록 '공통된 차원(Shared dimension)'의 잠재 공간으로 투영하는 신경망층
- TWOSIDES 데이터의 경우, 구조 정보 '하나만' 있는 약물을 처리할 때, 다른 다중 모달 약물들과 섞이지 않도록 별도의 전용 프로젝터(Separate projector)를 할당하여 학습하게 했습니다. 이는 정보가 부족한(구조만 있는) 약물의 특징을 더 효과적으로 보존하거나 정렬하기 위함.
- Modality sampling: 빈도의 역수에 비례하도록 확률을 설정, 배치마다 다른 모달리티 샘플링
- 경로 기반 지식 그래프 (Pathways-based KG):
- 데이터: 약물 중심 정밀 의료 지식 그래프인 PrimeKG에서 데이터를 수집했습니다. 약물과 단백질, 생물학적 경로 간의 상호작용 정보를 포함하며, 정보 유출을 막기 위해 약물-약물 상호작용 및 약물-부작용 데이터는 제외했습니다.
- 학습: HGT(Heterogeneous Graph Transformer) 인코더를 사용하며, 지식 그래프 내의 노드 간 연결(Link) 존재 여부를 예측하는 자가 지도 학습(Self-supervised link prediction)을 통해 학습합니다.
- 세포 생존율 (Cell Viability):
- 데이터: DepMap의 PRISM Repurposing 데이터셋을 사용했습니다. 578개 세포주에 대한 약물 처리에 따른 생존율 변화를 559차원의 벡터로 변환하여 사용합니다.
- 학습: MLP(Multi-layer Perceptron) 인코더를 사용하며, 입력 데이터를 압축했다가 다시 복원하는 재구성(Reconstruction) 목적 함수(MSE loss)를 통해 학습합니다.
- 전사체학 (Transcriptomics):
- 데이터: Extended CMap 2020 데이터셋에서 16개 주요 세포주의 프로필을 수집했습니다. 약물 처리 6시간 및 24시간 후의 유전자 발현 변화를 결합하여 1,956차원의 특징 벡터를 생성합니다.
- 학습: chemCPA 인코더를 사용하며, chemCPA의 기존 학습 전략과 유사하게 전사체 반응을 재구성하도록 학습합니다
- Stage 1에서 초기화된 각 인코더들을 동시에 공동으로 학습(Jointly learn all encoders)
- 약물 조합 시너지 (Synergy): BeatAML 데이터셋을 사용하여 특정 약물 조합이 환자 샘플에서 시너지 효과(조합 비율 < 1)를 내는지 여부를 이진 라벨로 예측합니다.
- 치료 반응 및 생존 (Efficacy & Survival): PDXE(환자 유래 이종 이식) 데이터셋에서 치료 반응 점수(BestAvgResponse)와 무진행 생존 기간(PFS, TimeToDouble)과 같은 연속형 또는 시간 기반 라벨을 예측합니다.
- 환자 수준의 임상 사건: 실제 병원 기록(EHR)을 바탕으로 병원 재입원 여부, 모든 원인에 의한 사망률 등을 예측하는 라벨로도 활용됩니다.
- 단일 약물의 독성 등급: 개별 약물의 간 손상(DILIrank), 심장 독성(DICTrank) 등의 위험 등급(Severe, Minor 등)과 모델의 순위 결과가 얼마나 일치하는지 분석하는 데 사용됩니다.
4. Materials & Methods
- 두 가지 데이터셋으로 학습
- FAERS에서 파생된 리소스인 TWOSIDES(2019-11-15):
1,457개의 약물과 795개의 결과에 걸쳐 4,656,138개의 조합을 포함 - DrugBank(2023년 1월 4일)
632개의 약물과 158개의 결과를 포함1,188,371개의 조합을 전문가가 선별한 자료
- FAERS에서 파생된 리소스인 TWOSIDES(2019-11-15):
- 검증 방법
- receiver-operator curve (AUROC), area under precision-recall curve (AUPRC), and maximum F measure (Fmax)
- Fmax란,?
- 약물별 분할의 두 가지 더 어려운 변형을 도입
- 적응증을 확장하기 위해 승인된 약물과 결합되는 실제 개발 시나리오를 반영하기 위함.
- In split-by-drugs (target), 테스트 세트 약물이 훈련 약물과 최소한의 치료 표적을 공유
- In split-by-drugs (ATC), 특정 1차 해부학적 치료 화학(ATC) 범주에 속하는 약물을 훈련에서 제외
- receiver-operator curve (AUROC), area under precision-recall curve (AUPRC), and maximum F measure (Fmax)

5. Evaluation & Findings
Figure2. MADRIGAL 벤치마킹 및 성능 분석
a. 'split-by-drugs'(약물 기준 분할) 설정에서 학습 중에는 (d2, d3, d4에 대해) 사용 가능한 모든 모달리티가 사용
반면, 테스트 시에는 테스트 약물(d1)에 대해 다른 모달리티들이 가려져(빗금 친 상자) 구조(structure) 모달리티만 사용
- 는 모델이 예측하고자 하는 각기 다른 임상 안전성 결과(Safety outcomes) 또는 부작용의 종류로써, "QT 간격 연장", "간 수치 상승", "호중구 감소증"과 같은 953개의 구체적인 부작용 항목을 의미함.
b. Drugbank(expert-curated) vs TWOSIDES(patient-reported)
- "W/o CL"은 모달리티 정렬이 없는 어블레이션(ablation) 모델
- "Struc. only"는 미세 조정(fine-tuning) 중 구조 모달리티만 사용한(단, 모달리티 정렬 중에는 모든 모달리티 사용) 어블레이션 모델
- "Struc. only w/o CL"은 모달리티 정렬 없이 미세 조정 중 구조 모달리티만 사용 가능한 어블레이션 모델
c. 유사도와 성능의 관계, 학습 데이터에 포함된 약물들과 구조적으로 유사할수록 모델의 성능(AUPRC)이 높아진다
- Tanimoto 유사도: 약물의 분자 구조(Structure)를 비교할 때 사용
- Jaccard 유사도: 약물의 타겟 프로필(Target profile)을 비교할 때 사용

figure3. 외부 환자 안전 데이터셋에 대한 MADRIGAL 예측 평가
a-c. (약물 유발 간 손상(a), 약물 유발 심장 독성(b), 약물 유발 QT 연장(c))의 우려 수준과 상관관계가 있음
- DILIrank (간 손상): 약물 유발 간 손상 위험에 따라 가장 심각(Most severe), 경미(Minor), 모호(Ambiguous), 우려 없음(No concern)의 4단계로 분류된 데이터셋
- DICTrank (심장 독성): FDA 라벨링을 기반으로 심장 독성 위험을 가장 심각, 경미, 모호, 우려 없음으로 분류
- DIQTA (QT 연장): QT 연장 위험을 가장 심각, 중간(Moderate), 모호, 우려 없음으로 분류한 데이터셋
d. 독시사이클린(Doxycycline, Dox)과 관련된 조합에서의 수송체 매개 약물 상호작용(DDI)에 대한 모델 예측 결과
e. 동일한 수송체, 운반체 또는 효소를 공유하는 약물들은 관련 안전 결과가 발생할 경향이 더 높은 것으로 예측
f. 특정 수송체를 공유하는 약물들은 공통적이고 구체적인 수송체 관련 안전 결과가 나타날 가능성이 더 높은 것으로 예측

figure4. 임상적으로 시험된 약물 조합의 안전성을 예측
- a, 후보 약물 쌍은 두 가지 방식으로 평가됩니다. 상단: 관찰된 AE(이상 반응) 발생률을 보여주는 헤드투헤드(head-to-head) 임상 시험군입니다. 하단: MADRIGAL이 동일한 부작용 결과에 대해 예측한 안전성 점수입니다. 모델의 예측값은 실제 발생 백분율과 일치하도록 보정(calibrated)되지 않았습니다. 일치 여부(Agreement)는 임상 시험에서 더 안전한 것으로 나타난 시험군이 MADRIGAL 점수에서도 더 낮은 점수를 받았는지에 따라 평가됩니다.
- b, 호중구 감소증(neutropenia), 저혈당증(hypoglycemia), 빈혈(anemia), 탈모(alopecia)에 대해 여러 조합군을 가진 후기 단계 임상 시험(CT)의 AE 데이터와 MADRIGAL 예측값을 비교한 결과입니다. 35개 시험 중 19개에서 해당 부작용들 중 적어도 하나에 대해 시험군 간 발생률에 유의미한 차이가 있었습니다.
- c, 다양한 약물 조합 클래스에 걸친 비교 안전성 평가입니다. 각 그룹 내에서 왼쪽에서 오른쪽으로의 막대는 다음을 나타냅니다:
- 적어도 하나의 항암제를 포함하며 후기 단계(1상 이상)에서 조사된 약물 조합
- 암 치료용으로 적시되어 후기 단계에서 조사된 약물 조합
- FDA 승인 약물 조합
- 적어도 하나의 항암제를 포함하는 FDA 승인 약물 조합
- 후기 단계에서 조사된 PARPi 조합
- PARPi와 다른 항암제의 쌍별 조합 각 약물 조합의 안전성 프로필은 각 장기 시스템별로 가장 높은 5개의 정규화된 독성 결과 순위의 평균으로 표시됩니다. 순위(Rank)가 높을수록 예측된 안전성 우려가 더 크다는 것을 의미합니다.

- a, 심부전 약물과 병용된 피오글리타존(pioglitazone) 또는 로시글리타존(rosiglitazone)의 예측된 안전성 프로필입니다. 각 점은 심부전 적응증을 가진 약물과 결합했을 때, 각각의 관련 안전성 결과에 대한 두 약물의 정규화된 순위의 중앙값을 나타냅니다. 양측 Wilcoxon 부호 순위 검정; p-value < 0.005.
- b, 심부전 약물과 임의의 T2D 약물을 포함하는 약물 조합의 예측된 고칼륨혈증(hyperkalemia) 관련 안전성 프로필입니다. (SGLT2i: 나트륨-포도당 공동 수송체 2 억제제, ARB: 안지오텐신 II 수용체 차단제, ARNi: 안지오텐신 수용체-네프릴리신 억제제, ACEi: 안지오텐신 전환 효소 억제제, SZC: 나트륨 지르코늄 사이클로실리케이트, HF: 심부전). 에러 바는 95% 신뢰 구간을 나타냅니다. 양측 Mann-Whitney U 검정; p-value < 0.005.
- c, T2D 약물과 병용된 MASH 임상 후보 물질들의 예측된 안전성입니다 (예측 결과 가장 안전한 5개 후보 표시). 'Drug 1'은 MASH 후보 물질이며, 'Drug 2'(표시되지 않음)는 모든 T2D 약물 또는 후보 물질입니다. 안전성 순위(Safety rank)는 오른쪽에 표시된 정규화된 순위를 기반으로 도출되었습니다. (PPAR: 페록시좀 증식제 활성화 수용체, THRβ: 갑상선 호르몬 수용체 베타, FXR: 파네소이드 X 수용체, ACC: 아세틸-CoA 카르복실라제).
- d, e, 임상 시험 단계별 MASH 후보 물질의 예측된 안전성 프로필입니다. Open Targets(d)와 Harrison 등의 데이터(e)를 기준으로 T2D 약물과 병용했을 때의 결과를 보여줍니다.
- f, 조합 요법 개발을 위한 효능 및 안전성 강화 근거의 예시입니다.
- g, 현재 임상 조사 중인 MASH 조합 요법의 예측된 안전성 프로필입니다. 파란색 행은 해당 "합리적 배경(rational background)" 내에서 상대적으로 안전한 것으로 예측된 약물 쌍을 나타냅니다


- a, 체외 암 연구에서 개별화된 약물 조합 효능을 예측하기 위해 MADRIGAL을 활용하는 과정입니다.
- b, BeatAML 데이터셋에서 시너지 효과를 내는 약물 조합을 예측하는 MADRIGAL의 성능입니다. 예측 목표는 '조합 시너지'입니다. 환자 중심(Patient-centric) 및 약물 중심(Drug-centric)은 모델 평가를 위한 AUROC 계산의 두 가지 방식을 나타냅니다. 에러 바는 95% 신뢰 구간입니다.
- c, PDX Encyclopedia 데이터셋에서 각 약물 조합을 제외(leave-out)하고 평가했을 때의 효능 예측 성능입니다. 예측 목표는 치료 반응(BestAvgResponse)입니다.
- d, (encorafenib + binimetinib) 조합으로 치료받은 개별 환자 모델의 예측된 무진행 생존 기간(PFS)입니다. 예측값은 실제 관찰된 최고 반응 범주(mRECIST 기준)에 따라 색상으로 구분됩니다. (PD: 질병 진행, SD: 질병 안정, PR: 부분 반응, CR: 완전 반응).
- e, f, 예측된 치료 반응에 따라 계층화된 카플란-마이어(Kaplan-Meier) 생존 추정치입니다. (BKM120 + encorafenib) 조합(e)과 (encorafenib + binimetinib) 조합(f)에 대한 결과입니다.
- g, h, 실제 환자 코호트에서 개인 맞춤형 약물 조합 안전성을 예측하기 위한 모델 학습 및 추론 과정입니다.
- i, 종단적 사건 시간(event-time) 코호트에서 재입원, 사망률 및 5가지 이상 반응(빈혈, 고혈당증 등) 예측에 대한 TransformerEHR과 MADRIGAL을 결합한 모델의 성능 비교입니다. 에러 바는 표준 편차를 나타냅니다.
- j, 단일 색인 종양학 코호트에서 개별 환자의 이상 반응을 예측하기 위해 MADRIGAL을 환자 정보와 결합했을 때의 성능입니다. 기존의 Morgan 지문이나 원-핫(one-hot) 인코딩 방식과 비교한 결과입니다.


6. Take away
- 그냥 감탄 밖에 안나오는.. 이걸 다시 fine-tuning해서 임상으로 연결한게 너무 대단했음. 사용된 데이터도 다시 검토 필요해보임.