간단 리뷰 Day26. Genetic evidence informs the direction of therapeutic modulation in drug development

Genetic evidence informs the direction of therapeutic modulation
in drug development

https://www.nature.com/articles/s44386-025-00027-0

2025, nature npj drug discovery, 0 citation

강화학습 기반 meta path 방법론이라서, 결과 이미지만 보려고함.

약물 타겟의 활성을 증가시킬지 감소시킬지를 결정하는 정확한 효과 방향(direction of effect, DOE)은 치료 성공에 필수적이다. 본 연구에서는 유전자 및 유전자–질병 수준에서 DOE를 예측하기 위한 프레임워크를 제안한다. 이 프레임워크는 유전자 및 단백질 임베딩과, 대립유전자 빈도 스펙트럼 전반에 걸친 유전적 연관성을 각각 활용한다. 구체적으로, 우리는
(1) 19,450개의 단백질 코딩 유전자에 대해 DOE-특이적 약물적합성을 예측하여 macro-averaged AUROC 0.95를 달성
(2) 2,553개의 druggable 유전자에 대해 질병 맥락을 배제한 isolated DOE를 예측하여 macro-averaged AUROC 0.85를 기록
(3) 47,822개의 유전자–질병 쌍에 대해 유전자–질병 특이적 DOE를 예측하였으며, macro-averaged AUROC 0.59를 보였다.

이는 유전적 증거의 가용성이 증가함에 따라 성능이 향상되었다. 본 프레임워크의 예측 결과는 기존 방법론을 능가하며, 임상시험 성공과 연관되고 새로운 치료 기회를 식별한다. 또한 우리는 활성제(activator) 타겟과 저해제(inhibitor) 타겟 간의 유전적 및 기능적 차이를 규명함으로써, 질병 맥락과 독립적인 DOE 추론을 가능하게 한다. 본 프레임워크는 타겟 선정 및 신약 개발을 위한 유용한 도구를 제공한다.

*macro-averaged : 각 분류 테스크(increase/decrease)별 AUROC 값을 단순 평균한 값이다.

*Druggability: 특정 유전자/단백질이 작은 분자나 항체 같은 약물로 효과적이고 안전하게 조절될 수 있는 가능성을 말하여, 여기서는 타겟을 활성화/억제 가능성을 의미한다.

Code is available at https://github.com/robchiral/DOE-prediction.

1. Problem

7341개 약물 중
- 46%는 4상 임상시험(승인됨), 29%는 1~3상 임상시험, 25%는 연구 단계가 명시되지 않은 상태
- 가장 흔한 약물 유형은 소분자(78.7%)와 항체(8.1%)
- 54.7%의 약물은 단일 유전자만을 표적
적어도 한 약물의 표적인 단백질 코딩 유전자는 총 2553개, 이들 중
- 1937개(75.9%)는 억제제 약물에 의해,
- 592개(23.2%)는 활성제 약물에 의해,
- 1094개(42.9%)는 다른 기전을 가진 약물에 의해,
- 404개(15.8%)는 활성제와 억제제 약물 모두에 의해 표적됨.
활성제와 억제제 약물 표적은 서로 다른 특성을 가지고 있다.

2. Related Work

DOE를 ‘사전에’ 예측하지 못함
- 대부분 이미 존재하는 약물 후보에 대해 perturbation data로 MoA를 분석
Activator vs Inhibitor 구분 부재
- DrugnomeAI(XGBoost, 324 features), gene-level druggability 예측 & activator/inhibitor 구분 X
질병 비의존적
- 같은 유전자라도, 질병 A → 억제 / 질병 B → 활성화 : gene–disease pair 수준 DOE 예측이 필요함.

3. Idea

첫 번째 모델는
- 19,450개의 단백질 코딩 유전자에 대해 DOE-특이적 druggability를 예측한다.
- 이는 DOE 관점에서 druggable genome을 확장하고,
- 억제(inhibition)에 비해 치료적 구현이 더 어려운 활성화(activation) 타겟의 불균형을 완화하는 것을 목표로 한다.
두 번째 모델는
- 4,732개의 알려진 및 예측된 druggable 유전자에 대해
- druggability와 독립적인 DOE를 예측한다.
- 이는 모든 질병 전반에 걸쳐 특정 방향으로 타겟을 조절하는 것이 치료적으로 유의미한지를 평가한다.
세 번째 모델는
- 앞선 두 개의 질병 비의존적(gene-level) 모델과 달리,
- 인간 유전학 특징을 활용하여
- 47,822개의 유전자–질병 쌍에 대해 유전자–질병 특이적 DOE를 예측한다.

4. Materials & Methods

1. Drug mechanism & indication 데이터 구축

ChEMBL, Open Targets, DrugBank, Guide to Pharmacology, 수작업 큐레이션 데이터 통합
- 승인 약물 및 임상 후보 약물만 포함
- 약물 작용기전(MoA)을 activator / inhibitor / 기타로 분류
- 최종 데이터:
  - 7,341개 약물
  - 2,553개 유전자
  - 22,039개 drug–gene 쌍
- 기전 정보 충돌 시:
  - ChEMBL·DrugBank 우선
  - activator / inhibitor annotation 우선

2. Gene–disease indication 데이터

Open Targets + FDA/EMA 희귀의약품 데이터 사용
약물 적응증을 ICD-10 코드로 매핑
drug–gene 데이터와 ChEMBL ID 기준으로 결합

3. Gene-level 입력 특징 (총 425개)

표형(tabular) 특징 41개
유전자 임베딩 256차원
단백질 임베딩 128차원
포함 정보 예:
- drug target 우선순위, 암 유전자 여부
- 단백질 위치·기능, gnomAD 제약도
- GOF/LOF 변이, OMIM 질환 정보
- 필수 유전자, haploinsufficiency
- 조직 특이성(GTEx)
- AlphaFold 구조 기반 binding pocket 예측

4.임베딩 생성

유전자 임베딩:
- GenePT (OpenAI text-embedding-3-large 기반)
- 3072차원 → 256차원으로 축소
- NCBI gene summaries
단백질 임베딩:
- ProtTrans T5 모델 (1024차원)
- PCA로 128차원 축소
UMAP으로 시각화 시:
- druggable / non-druggable
- activator / inhibitor 타겟이 구분된 클러스터 형성

5. 머신러닝 모델 학습

XGBoost 사용
nested 8-fold cross-validation
과적합 방지:
- min_child_weight = 10
- early stopping 적용
SHAP으로 feature importance 분석

5. Restuls

6. Take away

Gene-disease-specific 방식은 여전히 어려움을 겪는 것을 확인함.

저작자표시 (새창열림)

'Paper' 카테고리의 다른 글

간단리뷰 Day 28. Leveraging generative AI to prioritize drug repurposing candidates for Alzheimer’s disease with real-world clinical validation (0)	2026.01.05
간단 논문 Day 27. A survey and systematic assessment of computational methods for drug response prediction (0)	2026.01.04
간단리뷰 Day 25. Phenolyzer: phenotype-based prioritization of candidate genes for human diseases (0)	2026.01.02
간단리뷰 Day 24. Simulation of undiagnosed patients with novel genetic conditions (0)	2026.01.01
간단리뷰 Day23. scRegulate: single-cell regulatory-embedded variational inference of transcription factor activity from gene expression (0)	2025.12.30

Bioinfomatics

간단 리뷰 Day26. Genetic evidence informs the direction of therapeutic modulation in drug development