본문 바로가기

Paper

간단 리뷰 Day26. Genetic evidence informs the direction of therapeutic modulation in drug development

Genetic evidence informs the direction of therapeutic modulation
in drug development

https://www.nature.com/articles/s44386-025-00027-0

2025, nature npj drug discovery, 0 citation

강화학습 기반 meta path 방법론이라서, 결과 이미지만 보려고함.

 

약물 타겟의 활성을 증가시킬지 감소시킬지를 결정하는 정확한 효과 방향(direction of effect, DOE)은 치료 성공에 필수적이다. 본 연구에서는 유전자 및 유전자–질병 수준에서 DOE를 예측하기 위한 프레임워크를 제안한다. 이 프레임워크는 유전자 및 단백질 임베딩과, 대립유전자 빈도 스펙트럼 전반에 걸친 유전적 연관성을 각각 활용한다. 구체적으로, 우리는 
(1) 19,450개의 단백질 코딩 유전자에 대해 DOE-특이적 약물적합성
을 예측하여 macro-averaged AUROC 0.95를 달성
(2) 2,553개의 druggable 유전자에 대해 질병 맥락을 배제한 isolated DOE를 예측하여 macro-averaged AUROC 0.85를 기록
(3) 47,822개의 유전자–질병 쌍에 대해 유전자–질병 특이적 DOE를 예측하였으며, macro-averaged AUROC 0.59를 보였다.

이는 유전적 증거의 가용성이 증가함에 따라 성능이 향상되었다. 본 프레임워크의 예측 결과는 기존 방법론을 능가하며, 임상시험 성공과 연관되고 새로운 치료 기회를 식별한다. 또한 우리는 활성제(activator) 타겟과 저해제(inhibitor) 타겟 간의 유전적 및 기능적 차이를 규명함으로써, 질병 맥락과 독립적인 DOE 추론을 가능하게 한다. 본 프레임워크는 타겟 선정 및 신약 개발을 위한 유용한 도구를 제공한다.

*macro-averaged : 각 분류 테스크(increase/decrease)별 AUROC 값을 단순 평균한 값이다.

*Druggability: 특정 유전자/단백질이 작은 분자나 항체 같은 약물로 효과적이고 안전하게 조절될 수 있는 가능성을 말하여, 여기서는 타겟을 활성화/억제 가능성을 의미한다.

Code is available at https://github.com/robchiral/DOE-prediction.

1. Problem

  • 7341개 약물 중
    • 46%는 4상 임상시험(승인됨), 29%는 1~3상 임상시험, 25%는 연구 단계가 명시되지 않은 상태
    • 가장 흔한 약물 유형은 소분자(78.7%)와 항체(8.1%)
    • 54.7%의 약물은 단일 유전자만을 표적
  • 적어도 한 약물의 표적인 단백질 코딩 유전자는 총 2553개, 이들 중 
    • 1937개(75.9%)는 억제제 약물에 의해, 
    • 592개(23.2%)는 활성제 약물에 의해, 
    • 1094개(42.9%)는 다른 기전을 가진 약물에 의해, 
    • 404개(15.8%)는 활성제와 억제제 약물 모두에 의해 표적됨.
  • 활성제와 억제제 약물 표적은 서로 다른 특성을 가지고 있다.

2. Related Work

  • DOE를 ‘사전에’ 예측하지 못함
    • 대부분 이미 존재하는 약물 후보에 대해 perturbation data로 MoA를 분석
  • Activator vs Inhibitor 구분 부재
    • DrugnomeAI(XGBoost, 324 features), gene-level druggability 예측 & activator/inhibitor 구분 X
  • 질병 비의존적
    • 같은 유전자라도, 질병 A → 억제 / 질병 B → 활성화 : gene–disease pair 수준 DOE 예측이 필요함.

3. Idea

 

  • 첫 번째 모델
    • 19,450개의 단백질 코딩 유전자에 대해 DOE-특이적 druggability를 예측한다.
    • 이는 DOE 관점에서 druggable genome을 확장하고,
    • 억제(inhibition)에 비해 치료적 구현이 더 어려운 활성화(activation) 타겟의 불균형을 완화하는 것을 목표로 한다.
  • 두 번째 모델
    • 4,732개의 알려진 및 예측된 druggable 유전자에 대해
    • druggability와 독립적인 DOE를 예측한다.
    • 이는 모든 질병 전반에 걸쳐 특정 방향으로 타겟을 조절하는 것이 치료적으로 유의미한지를 평가한다.
  • 세 번째 모델
    • 앞선 두 개의 질병 비의존적(gene-level) 모델과 달리,
    • 인간 유전학 특징을 활용하여
    • 47,822개의 유전자–질병 쌍에 대해 유전자–질병 특이적 DOE를 예측한다.

 

4. Materials & Methods

1. Drug mechanism & indication 데이터 구축

  • ChEMBL, Open Targets, DrugBank, Guide to Pharmacology, 수작업 큐레이션 데이터 통합
    • 승인 약물 및 임상 후보 약물만 포함
    • 약물 작용기전(MoA)을 activator / inhibitor / 기타로 분류
    • 최종 데이터:
      • 7,341개 약물
      • 2,553개 유전자
      • 22,039개 drug–gene 쌍
    • 기전 정보 충돌 시:
      • ChEMBL·DrugBank 우선
      • activator / inhibitor annotation 우선

2. Gene–disease indication 데이터

  • Open Targets + FDA/EMA 희귀의약품 데이터 사용
  • 약물 적응증을 ICD-10 코드로 매핑
  • drug–gene 데이터와 ChEMBL ID 기준으로 결합

3. Gene-level 입력 특징 (총 425개)

  • 표형(tabular) 특징 41개
  • 유전자 임베딩 256차원
  • 단백질 임베딩 128차원
  • 포함 정보 예:
    • drug target 우선순위, 암 유전자 여부
    • 단백질 위치·기능, gnomAD 제약도
    • GOF/LOF 변이, OMIM 질환 정보
    • 필수 유전자, haploinsufficiency
    • 조직 특이성(GTEx)
    • AlphaFold 구조 기반 binding pocket 예측

4.임베딩 생성

  • 유전자 임베딩:
    • GenePT (OpenAI text-embedding-3-large 기반)
    • 3072차원 → 256차원으로 축소
    • NCBI gene summaries
  • 단백질 임베딩:
    • ProtTrans T5 모델 (1024차원)
    • PCA로 128차원 축소
  • UMAP으로 시각화 시:
    • druggable / non-druggable
    • activator / inhibitor 타겟이 구분된 클러스터 형성

5. 머신러닝 모델 학습

  • XGBoost 사용
  • nested 8-fold cross-validation
  • 과적합 방지:
    • min_child_weight = 10
    • early stopping 적용
  • SHAP으로 feature importance 분석

5. Restuls

6. Take away

  • Gene-disease-specific 방식은 여전히 어려움을 겪는 것을 확인함.