CancerGPT for few shot drug pair synergy prediction using large pretrained language models
https://www.nature.com/articles/s41746-024-01024-9
2024, nature npj digital medicine, 130 citation
시너지 예측 모델 연구하는 언니가 있어서 저널클럽 일환으로 읽게됨.
GPT는 새로운 '개념'에 예측에 대한 한계가 있는데 어떻게 few shot 이 가능한지 집중해서 읽어보기로함.
거대 언어 모델(LLM)은 최소한의 학습 데이터만으로도 다양한 분야에 걸쳐 few-shot learning에서 상당한 가능성을 보여주었다. 하지만 생물학이나 의학과 같이 복잡한 분야의 보지못한 작업(unseen tasks)에 대한 일반화 능력은 아직 충분히 평가되지않았다. LLM은 텍스트 코퍼스에서 사전 지식을 추출함으로써, 특히 특히 구조화된 데이터와 샘플크기가 제한적인 경우 생물학적 추론(inference)을 위한 유망한(promising) 대안적 접근 방식을 제공할 수 있다.
본 연구에서는 구조화된 데이터와 특징(features)이 부족한 희귀한 조직 내 약물 쌍의 시너지를 예측하기위해 LLM을 사용하는 few-shot learning 접근법을 제안한다. 서로 다른 암종 의 7가지 희귀 조직을 대상으로 한 실험을 통해 , LLM 기반 예측 모델이 매우 적거나 혹은 학습하지 못한 샘플(few or zero samples)만으로도 상당한 정확도를 달성함을 입증했다. 우리가 제안하는 모델 CancerGPT(~124M parameters)는 훨씬 큰 미세 조정된(fine-tuned) GPT-3(~ 175B parameters) 모델에 견줄 만한 성능을 보인다. 본 연구는 데이터가 제한적인 희귀 조직의 약물 쌍 시너지 예측 문제를 해결하는데 기여하며, 생물학 및 의학적 추론 작업을 위한 LLM 활용을 증진시킨다.
1. Problem
- 그러나 사용 가능한 데이터의 대부분은 유방암 및 폐암과 같은 특정 조직의 일반적인 암 유형에서 얻은 것,
뼈 및 연조직과 같은 특정 조직에 대한 실험 데이터는 매우 제한적 - 세포주를 얻는 것은 물리적으로 어렵고 비용이 많이 들기 때문에
2. Related Work
- Anticancer drug synergy prediction in understudied tissues using transfer learning(2021) https://pubmed.ncbi.nlm.nih.gov/33040150/:
세포 정보가 극히 제한적인 희귀 조직에는 적용할 수 없었음.
3. Idea
* 72만 drug-pair from DrugComb (이중 8천 개만 rare)
CancerGPT
1. common tissue에 대해 full fine-training
2. rare-tissue에 대해 fine-tuning(full or last layer)
-> key point: rare-tissue에 대해 llm을 활용할 수 있고 작은 모델로도 충분하다...는 것!
XGBoost, Collaborative filtering -> in distribution에 강하다.




4. Materials & Methods
- 테이블형 데이터의 자연어 변환 목적
- LLM을 테이블형 데이터 예측에 사용하기 위해 구조화된 입력과 예측 과제를 자연어 텍스트로 변환함.
- 각 데이터 인스턴스의 구조화된 특성을 문장 형태로 변환하여 LLM 입력으로 사용함.
- 기존 연구에서는 List Template, Text Template, Table-to-Text 방식이 비교됨.
- 이 연구에서는 성능이 가장 우수했던 Text Template 방식을 채택함.
- 각 feature와 value를 자연어 문장으로 명시적으로 서술하여 하나의 텍스트 입력으로 구성함.
- LM 기반 예측 모델 구조
- LLM 위에 분류기(classification head)를 추가하여 이진 분류 문제로 파인튜닝함.
- LLM 출력의 마지막 토큰 hidden representation을 입력 특성으로 사용함.
- TabTransformer 등 기존 베이스라인 모델과 공정한 비교가 가능하도록 설계함.
- LLM이 직접 텍스트로 답변을 생성하는 방식도 고려했으나, 일부 모델(GPT-2, SciFive)은 출력 형식 일관성이 떨어져 분류 헤드 방식이 필요했음.
- 연구 목적은 생성 능력 비교가 아니라 LLM의 지식 표현력과 태스크 적응 능력 평가임.
- 사용한 LLM 모델
- GPT-2, GPT-3, SciFive를 representation extractor로 사용함.
- GPT-2는 대규모 영어 코퍼스로 사전학습된 Transformer 기반 언어 모델이며 GPT-3/4의 전신 모델임.
- 여러 GPT-2 모델 크기 중 계산 자원 제약을 고려해 124M 파라미터의 기본 GPT-2를 사용함.
- CancerGPT 설계
- GPT-2를 대규모 외부 데이터로 추가 파인튜닝하여 약물 쌍 시너지 예측에 특화된 CancerGPT를 구축함.
- 도메인 적응을 통해 일반 언어 모델을 바이오메디컬 태스크에 맞게 조정함.
- Few-shot 파인튜닝 전략
- 각 희귀 조직별로 k-shot 데이터만 사용하여 파인튜닝함.
- 두 가지 전략을 비교함: 전체 모델 파라미터를 모두 학습하는 방식과 LLM 본체는 고정하고 분류기만 학습하는 방식.
- 모델 비교 및 평가 설계
- 동일한 입력 조건에서 기존 탭형 모델과 정확도를 비교함.
- 모델 아키텍처는 LLM 표현력 활용, 태스크 특화 적응, 파인튜닝 전략 효과를 동시에 평가할 수 있도록 구성됨.
5. Evaluation & Findings
* sciFive(2021): T5 기반의 , pubmed pre-training, (220M) <- GPT2보다 많음
* rare하지만 common tissue와 패턴이 비슷한 조직: Endometrium, Stomach, Bone
근거:


데이터 환경에 따른 성능 비교
- in-distribution 외부 데이터가 충분할 경우 기존 데이터 기반 모델이 가장 높은 정확도를 보임.
- 외부 데이터가 없거나 out-of-distribution인 경우 CancerGPT가 가장 높은 정확도를 달성함.
- 희귀 조직에 대한 기존 연구가 거의 없어 few-shot LLM 평가에 적합한 벤치마크임.
파인튜닝 전략 분석
- 마지막 레이어만 학습하는 방식(last-layer training)이 전체 파라미터를 학습하는 방식과 유사한 정확도를 달성함.
- 124M 파라미터의 CancerGPT는 훨씬 더 거대한 **GPT-3(175B 파라미터)**보다도 더 높은 정확도를 보여주는 경우가 많았는데, 이는 적절한 테스크 맞춤형 조정(Task-specific adjustments)이 모델의 크기보다 더 중요할 수 있음을 보여줌.
기존 방법과의 비교 한계
- 기존 시너지 예측 모델은 고차원 유전체·화학 특성과 대규모 학습 데이터를 필요로 하여 희귀 조직에서는 적용이 어려움.
- 본 연구는 제한된 입력 특성과 데이터만을 사용하는 현실적 시나리오를 대상으로 하며, 동일 입력을 사용하는 tabular 모델과 비교함.
Liver, sotf Tissue, urinary tract에서 다른 모델보다 최고 성능을 내었다는 것에는 동의하나... 원래 목적인 zero/few-shot에서는 성능이 애매하지 않나
오히려 Transformer 모델이 제일 관심이 감
추가로 본 연구에서는" LLM이 예측의 생물학적 근거를 제시할 수 있는지 평가" 했다고 함.
- 다른 미세 조정된 LLM 기반 모델(GPT-2, SciFive, CancerGPT)은 미세 조정 과정에서 언어 생성 성능이 저하되어 일관성 있는 답변을 제공하지 못함.(우려 대로..)
-> 본 실험에서는 제로샷 GPT-3를 사용
** inductive(귀납적, few-shot fine tuning) and deductive(연역적, knowledge encapsulated in llm) reasoning 둘다 잘한 모델이다!
We “automate” deductive reasoning using a LLM, which then forms the foundation for a few-shot prediction model. This combination of inductive (few-shot fine-tuning) and deductive (knowledge encapsulated in LLM) reasoning is a novel concept, made possible through our LLM-based prediction model.
6. Take away
- 뭐에 대한 few shot인지 finetuning을 어떻게 했다는것인지 좀 더 확인필요.
- *5를 기준을 삼은 이유: 예상하건데... positive에 대한 class inbalanced 때문에 약한 synergy(5~10) 범위의 페어를 사용한것 같음 다른 sota 모델에서도 그렇다고 함.(실험에서는 >10, >20, ... 이렇게 사용하긴함.)
- limitation - 4.9~5.1 범위 사이에 있는 것에 대한 성능이 좋지 않음.
- 완전히 모르는 drug에 대해서는 잘 못할 것임.