https://www.nature.com/articles/nbt.4233
처음 bioinfomatics를 접하는 인턴생을 위한 저널 클럽 논문이다.
내용이 너무 얕고 광범위하여 처음듣는 용어 및 관심있는 주제를 중심으로 정리했다.
이 논문의 핵심은 3-4페이지로써, DL이 어떻게 application 적용되는지가 중요했다.
Motivation & Purpose
- 이미 딥러닝 모델은 다양한 분야에서 성공 수준으로 예측 결과를 제공한다.
- 그러나 딥러닝이 실제 임상에서의 성능을 보장하는지, 그리고 딥러닝 결과를 바탕으로 의사 결정하는 것이 옳은지에 대한 근거와 신뢰가 필요하다.
- 따라서 본 논문은 biomedicine 분야에서 ML과 DL 사용 사례, 효과, 한계를 광범위하게 설명한다.
ML vs DL
ML | DL | |
Data size | small | big |
feature selection | manually | auto |
interpretability | easy | hard |
computational cost | low | high |
multi-modal learning | X | O |
- garbage in garbage out, 학습데이터의 퀄리티, preprocessing이 중요하다
igure 1. TH ERISE
Novelity
- Figure 1. TH ERISE OF MOLECULAR BIOLOGY, DL AND DATA-DRIVED BIOMEDICINE.
- AI winter 기간이 길었으나 발전이 멈춘 것은 아니었다. 학습 가능한 데이터의 양과 품질이 개선(시퀀싱 기술의 향상과 PDB, 1KG 등 대규모 데이터베이스의 공개)되고, 대규모 데이터를 처리할 수 있는 컴퓨터 성능(간단한 ML, DL 모델 등장, GPU 향상 등)도 크게 향상되었다.
- Figure 1.C를 통해 biology dataset의 종류 및 데이터 크기를 확인할 수 잇다.
- Figure 2. SUPERVISED LEARNING
- BOX1. APPLICATION TO GENETIC DATA
- BOX2. APPLICATION TO QSAR MODELING IN DRUG DISCOVERY
Generalization, reliability and performance of deployed models
생물학과 의학은 훈련 조건(모델이 학습에 사용한 데이터 및 환경)은 적용 조건(실제 임상에서 사용하는 데이터 및 환경)과 상당히 다를 가능성이 높다. 다음은 개발자가 모델을 개발하고자할 때 고려해야할 사항이다.
- Target mismatch. The target that is most important to users may not match the target used for training.
- 예를 들어, 개발자는 종양 크기를 예측하는 모델을 만들었지만 의사는 종양의 구체적 크기보다는 생존 기간을 더 알고 싶어한다.
- Loss function mismatch. The loss function used for training may not match the loss function that is important to users.
- 예를 들어, 의사는 종양이 특정 크기를 초과하는지 여부만 알고 싶어하지만(binary classification) 하지만 개발자는 구체적인 종양 크기를 예측(MSE regreesion model)하도록 했다.
- Data mismatch and selection bias. The collection of training data may have been done in a way that does not match the application conditions and introduces bias.
- 예를 들어, 특정 병원에서 수집된 훈련 데이터는 해당 병원의 수집 방법과 기기, 주로 치료받는 환자의 특성을 학습해,
데이터 편향을 초래한다. 그리고 이런 편향은 실제 사용하고자하는 임상환경과 일치하지 않을 경우 큰 문제를 야기한다.
- 예를 들어, 특정 병원에서 수집된 훈련 데이터는 해당 병원의 수집 방법과 기기, 주로 치료받는 환자의 특성을 학습해,
- Nonstationary environments. If the environment changes over time, the conditions at application will have drifted compared with those at training.
- 예를 들어, 유전자 서열 데이터를 입력으로 사용하는 모델의 경우, 시간이 지나면서 서열 판독 품질이 향상되어 초기 훈련 데이터와의 차이가 발생할 수 있다.(구체적으로 예를 들면 평균 read depth가 10이 었던 시퀀스데이터가 기술의 개발로 평균 30으로 resolution이 향상되었다.)
- 추가로 과거에는 sanger sequencing 혹은 microarray data에 기반한 모델이 많이 나왔던 반면
지금에는 시퀀스 기반의 데이터를 학습하는 모델이 많이 개발되었다. 학습하는 데이터의 트렌드도 영향을 받는다.
- Reactive and adversarial environments. Application of the model may alter the environment in a way that was not accounted for during training.
- 예를 들어, 예를 들어, HIV 바이러스는 예측된 백신을 회피하도록 진화할 수 있다.
- 당장 코로나19만 봐도 단시간내에 알파, 베타, 감마, 오미크론 변이에 의해 면역 회피 능력 및 전파력이 증가한 것을 안다.
초기 항바이러스제는 야생형 및 델타 변이를 기준으로 개발되었다가 오미크론 변이에 의해 치료제의 효과가 감소되었다.
- Confounding variables and causality. Learned relationships between two variables may in fact be due to a third, unobserved variable, and this correlation may be mistaken for causation.
- 예를 들어, 특정 유전적 변이가 질병과 강하게 연관되어 보일 수 있지만, 실제로는 이 변이가 아니라 연관 불균형(linkage disequilibrium)으로 인해 함께 나타나는 또 다른 변이가 질병의 원인일 수 있다.
- 이 문제는 생물학 분야에서 항상 대두되는 문제이다. ML뿐만아니라 전통 통계모델인 GWAS, PRS 의 한계이기도하다.
Establishing performance guarantees and stakeholder trust
높은 성능의 모델이 구축되었다고 가정 했을 때, 그 다음 중요한 과제가 실제 임상에서 사용하기에 적절한지 평가하는 것이다.
따라서 이해관계자들이 모델을 평가할 때, 고려해야할 개념을 소개한다.
- Performance.
- 데이터 전처리, 최적화, 모델 선택, 과적합(overfitting), 이상치(outliers), 맥락 의존성(context dependence), 누락된 정보(missing information), 혼란 변수(confounding variables), 그리고 비정상적(nonstationary), 반응적(reactive), 또는 적대적(adversarial) 환경과 같은 다양한 문제에 주의를 기울여야 한다.
- 또한, 이해관계자가 사용할 성능 지표(metrics)를 명확히 설정하는 것이 중요하다
- Rationale.
- 모델이 얼마나 정확한지와 관계없이, 이해관계자가 모델을 분석하고 입력을 조합하여 출력을 생성하는 방식에 대해 쉽게 이해하거나 설명할 수 있는 정도를 의미한다.
- 예를 들어, 선형 모델(linear model)에서는 양의 계수(positive parameter)가 입력값이 증가할수록 출력값도 증가함을 의미한다.
- Transparency.
- 이해 관계자가 모델을 검토하고 모델의 정확성과 관계없이 입력을 결합하여 출력을 생성할 때 모델이 어떻게 작동하는지 이해하거나 설명할 수 있는 용이성을 말한다.
- 모델이 매우 부정확하다면 투명성은 근거를 만드는 데 거의 가치가 없을 것이고, 모델이 좋은 근거를 출력하도록 훈련되었다면 투명성은 필요하지 않을 수 있다.
- 데이터 전처리, 최적화, 모델 선택 등의 여러 문제에 대한 신중한 고려가 필요하다.
- Model interpretability.
- 해석 가능성(interpretability)이라는 개념이 매력적이고 유용해 보이지만, 그 정의가 모호하기 때문에 실제 구현 방식과 이해관계자의 요구 사항 사이에 괴리가 발생하고 있다.
- 이와 관련된 인과 관계 추론(causality inference)에 대한 이론적 연구가 존재하지만, 생물학에서는 숨겨진 변수(hidden variables)가 많기 때문에 기존 기법이 한계를 갖고 있다.
- 반면에 성능(Performance), 근거(Rationale), 그리고 투명성(Transparency)과 관련된 목표는 보다 명확하게 정의될 수 있으며, 성공적으로 구현될 가능성이 높다.
Interested in
개념 정리
- Genetic algorithms
- Multi-model learning, 비 정형데이터
- multi-task learning