본문 바로가기

Paper

간단리뷰 Day 40. Large-scale foundation model on single-cell transcriptomics

Large-scale foundation model on single-cell transcriptomics

https://www.nature.com/articles/s41592-024-02305-7

2024, nature methods, 508 citation

drug-cell response 예측하는 벤치마킹 논문에서 cell type상관없이 일관된 준수한 성능을 보여 살펴보고자함.

 

대규모 사전 학습 모델은 자연어 처리 및 관련 분야에서 비약적인 발전을 이끄는 기반 모델(Foundation Model)로 자리 잡았다. 세포의 '언어'를 해독하고 생의학 연구를 촉진하기 위한 기반 모델을 개발하는 것은 유망하면서도 동시에 매우 도전적인 과제이다. 본 연구에서는 약 2만 개의 유전자를 아우르는 1억 개의 파라미터를 보유하고, 5,000만 개 이상의 인간 단일 세포 전사체 프로파일로 사전 학습된 대규모 모델 'scFoundation'(일명 xTrimoscFoundationα) 개발했습니다. scFoundation은 학습 가능한 파라미터 수, 유전자 차원의 수, 그리고 학습 데이터 양의 측면에서 진정한 대규모 모델이라 할 수 있다.
이 모델의 비대칭적 트랜스포머(Transformer) 유사 아키텍처와 사전 학습 작업 설계는 다양한 세포 유형과 상태에서 나타나는 유전자 간의 복잡한 문맥 관계를 효과적으로 포착할 수 있게한다. 실험 결과, scFoundation은 유전자 발현 증강, 조직 약물 반응 예측, 단일 세포 약물 반응 분류, 단일 세포 섭동 예측, 세포 유형 주석(Annotation) 및 유전자 모듈 추론 등 다양한 단일 세포 분석 작업에서 최고 수준(SOTA)의 성능을 달성하며 기반 모델로서의 우수성을 입증했다.


*Leading to breakthroughs,큰 발전을 이뤄온,비약적인 발전을 이끄는 / 혁신을 주도하는
*100 million,100 밀리언,1억 개
*Merit,장점,가치 / 우수성

*Empower effectively capturing: 효과적인 포착을 가능하게 한다

*Promising yet challenging 유망하면서도 도전적인

*Leading to breakthroughs 비약적인 발전을 이끄는

1. Background

  • 대규모로 사전학습한 모델이 생명과학분야 downstream 분석에서 돌파구가됨.
    -> 셀 하나를 하나의 문장으로 DNA나 RNA 및 유전자 발현 값을 단어로 간주하는 파운데이션 모델 도입 가능성
  • scRNA-seq 데이터가 충분히 많다.
    자연어 처리 분야에서 LL 학습에 사용되는 텍스트양(조 단위의 토큰)에 필적함 
    -> 마치 인간을 번역할 수 있을 것이란 기대
  • 3 가지 도전 과제
    • 다양한 세포 유형과 상태를 포괄하는 통합 데이터베이스의 부재
    • 약 20,000개의 유전자로 구성된 매우 긴 '문장'을 처리해야 하는 트랜스포머 모델의 한계
    • 실험실 및 기술별로 상이한 시퀀싱 리드 깊이(read depth)의 높은 가변성

2. Idea

  • 5,000만 개 이상의 단일 세포 프로파일로 학습
  • 1억 개의 매개변수를 가지고 약 20,000개의 유전자를 다루는 scFoundation을 개발
  • 비대칭 아키텍처와 리드 깊이의 차이를 조정하고 유전자 간 관계를 포착하는 RDA(Read-Depth-Aware) 모델링 특징

1. multiple downstream task를 수행

  • cell clustering, drug response prediction on bulk data, singe-cell drug response classification, single cell prepertubation prediction, cell type annotation

2. 위 다중 테스크들에서, non-fine-tuned 또는 ligt-fine-tuned만으로 좋은 성능에 도달

3. gene 임베딩을 사용하여 유전자 모듈과 유전자 조절 네트워크를 해석할 수 있음

 

  • 입력 데이터: 네, 특정 세포 하나에서 측정된 약 20,000개(정확히는 19,264개)의 단백질 코딩 유전자 발현값이 입력
  • scFoundation은 각 유전자에 대해 '유전자 이름 임베딩(Gene name embeddings)'을 사용
  • Bayesian Downsampling (베이지안 다운샘플링): 원본 데이터에서 기술적 요인으로 데이터가 누락되는 상황을 시뮬레이션하기 위해, 통계적 방법으로 리드 수를 무작위로 줄여 낮은 리드 깊이의 변이 데이터를 만드는 전략
  • Zero Mask & Nonzero Mask:
    • Zero Mask: 원래 발현값이 0인 유전자를 가림
    • Nonzero Mask: 실제 발현값이 있는 유전자를 가림
    • 두 가지를 모두 가리고 예측하게 함으로써,
      모델은 단순히 0이 아닌 값을 맞추는 것을 넘어 유전자 간의 복잡한 상관관계를 학습
  • 비대칭적 구조 (Asymmetric Architecture):
    • 인코더(Encoder): 전체 20,000개 유전자 중 **실제로 발현값이 있고 마스킹되지 않은 유전자(약 10% 내외)만 입력
    • 디코더(Decoder): 인코더의 결과와 '마스킹된 위치 정보'를 합쳐 전체 20,000개 유전자의 값을 모두 예측

4. Materials & Methods

  •  

RDA(Read-Depth-Aware) 모델링

 리드 깊이 지표(T, S) 도입: RDA 모델링은 마스크된 유전자 발현 값을 예측할 때 *Target(T)'과 'Source(S)'라는 두 가지 총 카운트(total counts) 지표를 함께 사용함. 여기서 T는 원본 샘플의 총 리드 수이고, S는 입력 샘플의 총 리드 수 이다. 이 정보들을 토큰으로 재도입함으로써 모델이 리드 깊이 값과 유전자 발현 간의 상관관계를 학습할 수 있게 합니다.
 저해상도 변이 학습을 통한 조화(Harmonization): 학습 단계에서 리드 깊이가 낮은 변이 샘플(low-read-depth variant)을 입력받아 원본 샘플의 발현 값을 예측하도록 함. 
 리드 깊이 강화(Read-Depth Enhancement): 추론 단계에서 사용자는 원하는 목표 리드 깊이(T)를 실제 입력된 리드 깊이(S)보다 높게 설정함으로써, 데이터가 극도로 희소하거나 리드 깊이가 낮은 환경에서도 유전자 발현 정보를 보강하고 더 정확한 세포 임베딩을 생성할 수 있습니다.
->  이러한 학습-추론 단계를 통해 모델은 서로 다른 리드 깊이를 가진 세포들 사이의 관계를 연결하고, 다양한 실험실이나 기술적 배경에서 오는 리드 깊이의 차이(테크니컬 이슈라고하며, 오염 및 무작위 노이즈임) '조화(Harmonize)'시키도록 유도
즉, 학습의 정답이 되는 원래 세포의 데이터의 전체 발현값(T)을 기반으로 실제 세포 상태를 반영한 전체 발현값(S)를 보고 

 

원본 샘플의 총 리드수 (T, Target): 학습의 '정답'이 되는 원래 세포 데이터의 전체 발현량 합계
입력 샘플의 총 리드수 (S, Source): 모델에 실제로 '입력'으로 넣어주는 데이터의 전체 발현량 합계입니다,.
 자세한 예시:
  • 어떤 연구자가 아주 정밀하게 시퀀싱하여 **세포 하나당 총 10,000개의 리드(Read)**를 얻었다고 가정합시다. 이것이 T = 10,000인 '원본 샘플'
  • 모델을 학습시킬 때, 이 데이터를 일부러 누락시켜 총 리드가 1,000개인 것처럼 줄인 데이터를 만듭니다. 이것이 S = 1,000인 '입력 샘플'
  • 모델은 "리드 수가 1,000개인 데이터(S)를 보고, 원래 10,000개였을 때(T)의 유전자별 발현 값이 무엇이었을지 맞춰봐"라는 과제를 수행하며 학습
  • 리드 깊이가 서로 다른 세포들을 동일한 기준(유전자 간의 관계)에서 이해할 수도 있도록 유도함.
 비임의적 노이즈 대응: 시퀀싱 리드 깊이는 체계적인 변동을 일으키는데, RDA 모델링은 대규모 데이터를 통해 이러한 비임의적 가변성을 학습하여 모델이 일관된 세포 및 유전자 표현(representation)을 학습하지 못하게 방해하는 요소를 제거함

5. Evaluation & Findings

  • 참고할만한 clustering 비교 지표:
    • normalized mutual information (NMI), adjusted Rand index (ARI) and silhouette coefficient (SIL)
    • 왜 다양하게 비교지표를 쓰는 것이 중요한가..fig2.f에 의하면 비슷한 성능이라고 뭉갠다음 sil 에 완전히 뛰어났다. 이런식으로 포장이 가능해짐.
    • Drug response에서 주로 사용하는 평가 지표: Pearson’s correlation coefficient (PCC), Spearman’s correlation coefficient (SCC) and root mean squared error (RMSE)
    •  주로 RMSE, R2 값을 많이 보여주는데 PCC(0.93)만 리포트 하고 있음.
  • 비교한 모델: imputation methods including MAGIC26, SAVER27, scImpute28 and scVI25 on a human pan- creatic islet dataset processed by SAVER. 

5.1 Improving Cancer Drug Response Prediction

DeepCDR 모델의 유전자 발현 처리 모듈을 scFoundation 임베딩으로 교체하여 예측 성능의 비약적 향상을 입증함.

  • 베이스라인(Baseline): DeepCDR (MLP 서브네트워크 기반 구조)
  • 주요 성능 지표: 피어슨 상관계수 (PCC)
  • 실험 결과 및 분석:
    • 전반적 향상: 대부분의 약물 및 암 유형에서 베이스라인 대비 높은 PCC 기록 (최상위 사례 PCC  0.93).
    • 약물 제외 테스트(Drug-blind test) 성과:
      • PHA-793887: 0.07-> 0.73(대폭 상승)
      • Zibotentan: 0.49 -> 0.64
    • 치료 유형별 특성: 화학요법(Chemotherapy) 약물이 표적 치료제보다 높은 PCC를 보임. 이는 유전자 발현 데이터가 화학요법의 반응 기전과 더 밀접하게 연관되어 있기 때문으로 분석됨.

5.2 Transferring Bulk Drug Response to Single Cells

벌크(Bulk) 데이터에서 학습된 약물 반응 지식을 단일 세포(Single-cell) 수준으로 효과적으로 전이(Transfer)함.

  • 베이스라인(Baseline): SCAD (전체 유전자 발현 값을 직접 입력하는 방식)
  • 주요 성능 지표: AUC, 스피어만 상관계수, 클러스터링 지수(CH, SIL)
  • 실험 결과 및 분석:
    • 분류 성능 (AUC): 주요 4종 약물(sorafenib, NVP-TAE684, PLX4720, etoposide) 모두에서 베이스라인 상회. 특히 일부 약물은 AUC 0.2 이상 상승.
    • 생체 지표(Biomarker) 연관성: 예측 민감도와 EpiSen 점수 간의 스피어만 상관계수 비교 결과, 베이스라인(0.24, -0.06) 대비 scFoundation(0.56, -0.55)이 훨씬 높은 상관관계를 보임.
    • 데이터 표현력: PCA 시각화 및 클러스터링 지표(CH 점수, 실루엣 점수)를 통해, 원본 데이터보다 약물 반응 신호를 더 명확하게 구분하는 풍부한 임베딩임을 증명.

6. Take away

  • 발현값을 예측하는 모델인데
    시퀀스를 가려놓고 read depth를 target/srouce 각각에 대해 예측하도록함.
  • RDA 모델링? 비대칭적 encoder, decoder 구조가 이미 컴퓨터비전에서 쓰이고있었는데이게 sparcity에 좋다고해서

baseline에서 어떤 약물/타입 이 실패했는지 보기 쉬움: