본문 바로가기

Paper

간단 논문 Day 27. A survey and systematic assessment of computational methods for drug response prediction

A survey and systematic assessment of computational methods 
for drug response prediction

https://academic.oup.com/bib/article/22/1/232/5700591?login=false

2021, Briefings in Bioinformatics, 96 citation

강화학습 기반 meta path 방법론이라서, 결과 이미지만 보려고함.

 

약물 반응 예측은 개인화된 치료뿐만아니라 항암제 개발의 기본적 연구와 임상적 연구 둘다에서 수행된다. 1000개 이상의 암 세포주 및 조직에 대한 유전자 발현 프로파일과 다른 오믹스 데이터을 사용할 수 있게 됨에 따라, 다양한(different) 머신러닝 방법론들이 약물 반응성 예측에 적용되어 왔다. 이런 방법론들은 수많은 문헌(Body of literature)에 등장(apear)하지만, 대개 한두 개의 정확도 지표만을 사용하여 서로 다른 데이터셋들에서 평가되어왔다. 본 연구에서는 지난 5년 동안 개발된 약물 반을 위한 17 가지의 대표적인 방법론(representative methods)을 선정하여, 4개의 대규모 공공 데이터셋과 9개의 평가지표를 바탕으로 체계적인(systematically)를 수행했다.본 연구는 향후 약물 반응 예측 연구를 위한 통찰력과 교훈(lesson)을 제공할 것이다.

1. Materials & Methods

(1) 4개 대규모 공공 데이터셋:

  • 미국 국립암연구소(NCI):
    • the NCI-60 (version 2.6.0)  
    • 60개 인간 종양 세포주에서 수천 가지 약물에 대한 스크리닝 데이터를 제공
    • mRNA, microRNA 발현, DNA 메틸화 및 돌연변이 프로필도 이용가능.
  • CCLE
    • 유전자 돌연변이 및 발현 프로필을 이용할 수 있는 504개 세포주에서 24개 약물에 대한 약물 민감도 데이터를 포함
    • the CCLE website (https://portals.broadinstitute.org/ccle/data, accessed 1 August 2019),
  •  GDSC
    • 약 1,000개의 인간 암세포주에 대해 266가지 약물을 테스트한 약 20만 건의 약물 반응 실험에서 생성된 데이터가 포함
    • The GDSC website (https://www.cancerrxgene.org/downloads, accessed 1 February 2019),
  • CTRP(Cancer Therapeutics Response Portal) 

The curated datasets (Tables S1–S43) are available online (https://github.com/Jinyu2019/Suppl-data-BBpaper).

(2) 17 Methods

 

- Linear regression methods and their generalizations:

Elastic net (ENet), Generalized ENet (GENet), Response-weighted ENet (RWENet), MERGE (mutation, expression hubs, known regulators, genomic CNV and methylation), Kernel ridge regression (KRR), Pairwise multiple kernel learning (pairwiseMKL)

- Bayesian inference methods

The Bayesian multi-task multi-kernel learning method (BMTMKL), Component-wise kernel Bayesian matrix factorization (cwKBMF), Multi-view multi-task linear regression (MVLR), MACAU

- Matrix-factorization-based methods

Predicting cancer drug response using a recommender system (CaDRRes), DualNets, The similarity-regularized matrix factorization (SRMF) method

- Miscellaneous methods

Random forest with gene filtering (RF-g) and with both gene and sample filtering (RF-gs), Kernel rank learning (KRL), TANDEM, Cancer drug response profile scan (CDRscan)

(3) Evaluation metrics

- Root mean square error (RMSE)

- Pearson correlation coefficient (PCC)

- Spearman correlation coefficient (SCC)

- Normalized discounted cumulative gain (NDCG)

- Normalized weighted probabilistic c-index (NWPC)

 

2. Results

  • 성능: 행렬 분해 방법 > 선형 외귀 모델 > 베이지안 추론 방법
  • SOTA model: SRMF, 세포주와 약물의 유사성 행렬로부터 반복적인 접근 방식을 이용.
    • 비선형적이고 복잡한 데이터임을 보여주며
    • 딥러닝 기반의 방법론에서 높은 정확도를 달성할 수 있음을 기대해볼만하다.
    • 하지만 여전히 기존 통계모델 성능을 뛰어넘을 수 있는가도 어려운 문제다.
  • 세포주 및 약물 그룹의 돌연변이/CNV/메틸화 프로파일
    • 예측이 큰 도움이 되지않는 것으로 확인됨.
    • 보다 더 현명한 방법으로의 접근이 필요