Genetic evidence informs the direction of therapeutic modulation
in drug development
https://www.nature.com/articles/s44386-025-00027-0
2025, nature npj drug discovery, 0 citation
강화학습 기반 meta path 방법론이라서, 결과 이미지만 보려고함.
약물 타겟의 활성을 증가시킬지 감소시킬지를 결정하는 정확한 효과 방향(direction of effect, DOE)은 치료 성공에 필수적이다. 본 연구에서는 유전자 및 유전자–질병 수준에서 DOE를 예측하기 위한 프레임워크를 제안한다. 이 프레임워크는 유전자 및 단백질 임베딩과, 대립유전자 빈도 스펙트럼 전반에 걸친 유전적 연관성을 각각 활용한다. 구체적으로, 우리는
(1) 19,450개의 단백질 코딩 유전자에 대해 DOE-특이적 약물적합성을 예측하여 macro-averaged AUROC 0.95를 달성
(2) 2,553개의 druggable 유전자에 대해 질병 맥락을 배제한 isolated DOE를 예측하여 macro-averaged AUROC 0.85를 기록
(3) 47,822개의 유전자–질병 쌍에 대해 유전자–질병 특이적 DOE를 예측하였으며, macro-averaged AUROC 0.59를 보였다.
이는 유전적 증거의 가용성이 증가함에 따라 성능이 향상되었다. 본 프레임워크의 예측 결과는 기존 방법론을 능가하며, 임상시험 성공과 연관되고 새로운 치료 기회를 식별한다. 또한 우리는 활성제(activator) 타겟과 저해제(inhibitor) 타겟 간의 유전적 및 기능적 차이를 규명함으로써, 질병 맥락과 독립적인 DOE 추론을 가능하게 한다. 본 프레임워크는 타겟 선정 및 신약 개발을 위한 유용한 도구를 제공한다.
*macro-averaged : 각 분류 테스크(increase/decrease)별 AUROC 값을 단순 평균한 값이다.
*Druggability: 특정 유전자/단백질이 작은 분자나 항체 같은 약물로 효과적이고 안전하게 조절될 수 있는 가능성을 말하여, 여기서는 타겟을 활성화/억제 가능성을 의미한다.
Code is available at https://github.com/robchiral/DOE-prediction.
1. Problem
- 7341개 약물 중
- 46%는 4상 임상시험(승인됨), 29%는 1~3상 임상시험, 25%는 연구 단계가 명시되지 않은 상태
- 가장 흔한 약물 유형은 소분자(78.7%)와 항체(8.1%)
- 54.7%의 약물은 단일 유전자만을 표적
- 적어도 한 약물의 표적인 단백질 코딩 유전자는 총 2553개, 이들 중
- 1937개(75.9%)는 억제제 약물에 의해,
- 592개(23.2%)는 활성제 약물에 의해,
- 1094개(42.9%)는 다른 기전을 가진 약물에 의해,
- 404개(15.8%)는 활성제와 억제제 약물 모두에 의해 표적됨.
- 활성제와 억제제 약물 표적은 서로 다른 특성을 가지고 있다.


2. Related Work
- DOE를 ‘사전에’ 예측하지 못함
- 대부분 이미 존재하는 약물 후보에 대해 perturbation data로 MoA를 분석
- Activator vs Inhibitor 구분 부재
- DrugnomeAI(XGBoost, 324 features), gene-level druggability 예측 & activator/inhibitor 구분 X
- 질병 비의존적
- 같은 유전자라도, 질병 A → 억제 / 질병 B → 활성화 : gene–disease pair 수준 DOE 예측이 필요함.
3. Idea
- 첫 번째 모델는
- 19,450개의 단백질 코딩 유전자에 대해 DOE-특이적 druggability를 예측한다.
- 이는 DOE 관점에서 druggable genome을 확장하고,
- 억제(inhibition)에 비해 치료적 구현이 더 어려운 활성화(activation) 타겟의 불균형을 완화하는 것을 목표로 한다.
- 두 번째 모델는
- 4,732개의 알려진 및 예측된 druggable 유전자에 대해
- druggability와 독립적인 DOE를 예측한다.
- 이는 모든 질병 전반에 걸쳐 특정 방향으로 타겟을 조절하는 것이 치료적으로 유의미한지를 평가한다.
- 세 번째 모델는
- 앞선 두 개의 질병 비의존적(gene-level) 모델과 달리,
- 인간 유전학 특징을 활용하여
- 47,822개의 유전자–질병 쌍에 대해 유전자–질병 특이적 DOE를 예측한다.

4. Materials & Methods
1. Drug mechanism & indication 데이터 구축
- ChEMBL, Open Targets, DrugBank, Guide to Pharmacology, 수작업 큐레이션 데이터 통합
- 승인 약물 및 임상 후보 약물만 포함
- 약물 작용기전(MoA)을 activator / inhibitor / 기타로 분류
- 최종 데이터:
- 7,341개 약물
- 2,553개 유전자
- 22,039개 drug–gene 쌍
- 기전 정보 충돌 시:
- ChEMBL·DrugBank 우선
- activator / inhibitor annotation 우선
2. Gene–disease indication 데이터
- Open Targets + FDA/EMA 희귀의약품 데이터 사용
- 약물 적응증을 ICD-10 코드로 매핑
- drug–gene 데이터와 ChEMBL ID 기준으로 결합
3. Gene-level 입력 특징 (총 425개)
- 표형(tabular) 특징 41개
- 유전자 임베딩 256차원
- 단백질 임베딩 128차원
- 포함 정보 예:
- drug target 우선순위, 암 유전자 여부
- 단백질 위치·기능, gnomAD 제약도
- GOF/LOF 변이, OMIM 질환 정보
- 필수 유전자, haploinsufficiency
- 조직 특이성(GTEx)
- AlphaFold 구조 기반 binding pocket 예측
4.임베딩 생성
- 유전자 임베딩:
- GenePT (OpenAI text-embedding-3-large 기반)
- 3072차원 → 256차원으로 축소
- NCBI gene summaries
- 단백질 임베딩:
- ProtTrans T5 모델 (1024차원)
- PCA로 128차원 축소
- UMAP으로 시각화 시:
- druggable / non-druggable
- activator / inhibitor 타겟이 구분된 클러스터 형성
5. 머신러닝 모델 학습
- XGBoost 사용
- nested 8-fold cross-validation
- 과적합 방지:
- min_child_weight = 10
- early stopping 적용
- SHAP으로 feature importance 분석
5. Restuls

6. Take away
- Gene-disease-specific 방식은 여전히 어려움을 겪는 것을 확인함.