본문 바로가기

Paper

Deep learning in biomedicine

https://www.nature.com/articles/nbt.4233

처음 bioinfomatics를 접하는 인턴생을 위한 저널 클럽 논문이다.

내용이 너무 얕고 광범위하여 처음듣는 용어 및 관심있는 주제를 중심으로 정리했다.

이 논문의 핵심은 3-4페이지로써, DL이 어떻게 application 적용되는지가 중요했다.


 

Motivation & Purpose

  • 이미 딥러닝 모델은 다양한 분야에서 성공 수준으로 예측 결과를 제공한다. 
  • 그러나 딥러닝이 실제 임상에서의 성능을 보장하는지, 그리고  딥러닝 결과를 바탕으로 의사 결정하는 것이 옳은지에 대한 근거와 신뢰가 필요하다.
  • 따라서 본 논문은 biomedicine 분야에서 ML과 DL 사용 사례, 효과, 한계를 광범위하게 설명한다.

ML vs DL

  ML DL
Data size small big
feature selection manually auto
interpretability easy hard
computational cost low high
multi-modal learning X O

 

  • garbage in garbage out, 학습데이터의 퀄리티, preprocessing이 중요하다

igure 1. TH ERISE

Novelity

  • Figure 1. TH ERISE OF MOLECULAR BIOLOGY, DL AND DATA-DRIVED BIOMEDICINE.
    • AI winter 기간이 길었으나 발전이 멈춘 것은 아니었다. 학습 가능한 데이터의 양과 품질이 개선(시퀀싱 기술의 향상과 PDB, 1KG 등 대규모 데이터베이스의 공개)되고, 대규모 데이터를 처리할 수 있는 컴퓨터 성능(간단한 ML, DL 모델 등장, GPU 향상 등)도 크게 향상되었다.
    • Figure 1.C를 통해 biology dataset의 종류 및 데이터 크기를 확인할 수 잇다.

  • Figure 2. SUPERVISED LEARNING

  • BOX1. APPLICATION TO GENETIC DATA
  • BOX2. APPLICATION TO QSAR MODELING IN DRUG DISCOVERY

Generalization, reliability and performance of deployed models

생물학과 의학은 훈련 조건(모델이 학습에 사용한 데이터 및 환경)은 적용 조건(실제 임상에서 사용하는 데이터 및 환경)과 상당히 다를 가능성이 높다. 다음은 개발자가 모델을 개발하고자할 때 고려해야할 사항이다.

  • Target mismatch. The target that is most important to users may not match the target used for training.
    • 예를 들어, 개발자는 종양 크기를 예측하는 모델을 만들었지만 의사는 종양의 구체적 크기보다는 생존 기간을 더 알고 싶어한다.
  • Loss function mismatch. The loss function used for training may not match the loss function that is important to users. 
    • 예를 들어, 의사는 종양이 특정 크기를 초과하는지 여부만 알고 싶어하지만(binary classification) 하지만 개발자는 구체적인 종양 크기를 예측(MSE regreesion model)하도록 했다.
  • Data mismatch and selection bias. The collection of training data may have been done in a way that does not match the application conditions and introduces bias. 
    • 예를 들어, 특정 병원에서 수집된 훈련 데이터는 해당 병원의 수집 방법과 기기, 주로 치료받는 환자의 특성을 학습해,
      데이터 편향을 초래한다. 그리고 이런 편향은 실제 사용하고자하는 임상환경과 일치하지 않을 경우 큰 문제를 야기한다.
  • Nonstationary environments. If the environment changes over time, the conditions at application will have drifted compared with those at training.
    • 예를 들어, 유전자 서열 데이터를 입력으로 사용하는 모델의 경우, 시간이 지나면서 서열 판독 품질이 향상되어 초기 훈련 데이터와의 차이가 발생할 수 있다.(구체적으로 예를 들면 평균 read depth가 10이 었던 시퀀스데이터가 기술의 개발로 평균 30으로 resolution이 향상되었다.)
    • 추가로 과거에는 sanger sequencing 혹은 microarray data에 기반한 모델이 많이 나왔던 반면
      지금에는 시퀀스 기반의 데이터를 학습하는 모델이 많이 개발되었다. 학습하는 데이터의 트렌드도 영향을 받는다.
  • Reactive and adversarial environments. Application of the model may alter the environment in a way that was not accounted for during training. 
    • 예를 들어, 예를 들어, HIV 바이러스는 예측된 백신을 회피하도록 진화할 수 있다.
    • 당장 코로나19만 봐도 단시간내에 알파, 베타, 감마, 오미크론 변이에 의해 면역 회피 능력 및 전파력이 증가한 것을 안다.
      초기 항바이러스제는 야생형 및 델타 변이를 기준으로 개발되었다가 오미크론 변이에 의해 치료제의 효과가 감소되었다.
  • Confounding variables and causality. Learned relationships between two variables may in fact be due to a third, unobserved variable, and this correlation may be mistaken for causation.
    • 예를 들어, 특정 유전적 변이가 질병과 강하게 연관되어 보일 수 있지만, 실제로는 이 변이가 아니라 연관 불균형(linkage disequilibrium)으로 인해 함께 나타나는 또 다른 변이가 질병의 원인일 수 있다.
    • 이 문제는 생물학 분야에서 항상 대두되는 문제이다. ML뿐만아니라 전통 통계모델인 GWAS, PRS 의 한계이기도하다.

Establishing performance guarantees and stakeholder trust

높은 성능의 모델이 구축되었다고 가정 했을 때, 그 다음 중요한 과제가 실제 임상에서 사용하기에 적절한지 평가하는 것이다.

따라서 이해관계자들이 모델을 평가할 때, 고려해야할 개념을 소개한다.

  • Performance.
    • 데이터 전처리, 최적화, 모델 선택, 과적합(overfitting), 이상치(outliers), 맥락 의존성(context dependence), 누락된 정보(missing information), 혼란 변수(confounding variables), 그리고 비정상적(nonstationary), 반응적(reactive), 또는 적대적(adversarial) 환경과 같은 다양한 문제에 주의를 기울여야 한다.
    • 또한, 이해관계자가 사용할 성능 지표(metrics)를 명확히 설정하는 것이 중요하다
  • Rationale.
    • 모델이 얼마나 정확한지와 관계없이, 이해관계자가 모델을 분석하고 입력을 조합하여 출력을 생성하는 방식에 대해 쉽게 이해하거나 설명할 수 있는 정도를 의미한다.
    • 예를 들어, 선형 모델(linear model)에서는 양의 계수(positive parameter)가 입력값이 증가할수록 출력값도 증가함을 의미한다.
  • Transparency.
    • 이해 관계자가 모델을 검토하고 모델의 정확성과 관계없이 입력을 결합하여 출력을 생성할 때 모델이 어떻게 작동하는지 이해하거나 설명할 수 있는 용이성을 말한다.
    • 모델이 매우 부정확하다면 투명성은 근거를 만드는 데 거의 가치가 없을 것이고, 모델이 좋은 근거를 출력하도록 훈련되었다면 투명성은 필요하지 않을 수 있다.
    • 데이터 전처리, 최적화, 모델 선택 등의 여러 문제에 대한 신중한 고려가 필요하다.
  • Model interpretability.
    • 해석 가능성(interpretability)이라는 개념이 매력적이고 유용해 보이지만, 그 정의가 모호하기 때문에 실제 구현 방식과 이해관계자의 요구 사항 사이에 괴리가 발생하고 있다.
    • 이와 관련된 인과 관계 추론(causality inference)에 대한 이론적 연구가 존재하지만, 생물학에서는 숨겨진 변수(hidden variables)가 많기 때문에 기존 기법이 한계를 갖고 있다.
    • 반면에 성능(Performance), 근거(Rationale), 그리고 투명성(Transparency)과 관련된 목표는 보다 명확하게 정의될 수 있으며, 성공적으로 구현될 가능성이 높다.

Interested in

개념 정리

  • Genetic algorithms
  • Multi-model learning, 비 정형데이터
  • multi-task learning