Large-scale foundation model on single-cell transcriptomics
https://www.nature.com/articles/s41592-024-02305-7
2024, nature methods, 508 citation
drug-cell response 예측하는 벤치마킹 논문에서 cell type상관없이 일관된 준수한 성능을 보여 살펴보고자함.
대규모 사전 학습 모델은 자연어 처리 및 관련 분야에서 비약적인 발전을 이끄는 기반 모델(Foundation Model)로 자리 잡았다. 세포의 '언어'를 해독하고 생의학 연구를 촉진하기 위한 기반 모델을 개발하는 것은 유망하면서도 동시에 매우 도전적인 과제이다. 본 연구에서는 약 2만 개의 유전자를 아우르는 1억 개의 파라미터를 보유하고, 5,000만 개 이상의 인간 단일 세포 전사체 프로파일로 사전 학습된 대규모 모델 'scFoundation'(일명 xTrimoscFoundationα)을 개발했습니다. scFoundation은 학습 가능한 파라미터 수, 유전자 차원의 수, 그리고 학습 데이터 양의 측면에서 진정한 대규모 모델이라 할 수 있다.
이 모델의 비대칭적 트랜스포머(Transformer) 유사 아키텍처와 사전 학습 작업 설계는 다양한 세포 유형과 상태에서 나타나는 유전자 간의 복잡한 문맥 관계를 효과적으로 포착할 수 있게한다. 실험 결과, scFoundation은 유전자 발현 증강, 조직 약물 반응 예측, 단일 세포 약물 반응 분류, 단일 세포 섭동 예측, 세포 유형 주석(Annotation) 및 유전자 모듈 추론 등 다양한 단일 세포 분석 작업에서 최고 수준(SOTA)의 성능을 달성하며 기반 모델로서의 우수성을 입증했다.
*Leading to breakthroughs,큰 발전을 이뤄온,비약적인 발전을 이끄는 / 혁신을 주도하는
*100 million,100 밀리언,1억 개
*Merit,장점,가치 / 우수성
*Empower effectively capturing: 효과적인 포착을 가능하게 한다
*Promising yet challenging 유망하면서도 도전적인
*Leading to breakthroughs 비약적인 발전을 이끄는
1. Background
- 대규모로 사전학습한 모델이 생명과학분야 downstream 분석에서 돌파구가됨.
-> 셀 하나를 하나의 문장으로 DNA나 RNA 및 유전자 발현 값을 단어로 간주하는 파운데이션 모델 도입 가능성 - scRNA-seq 데이터가 충분히 많다.
자연어 처리 분야에서 LL 학습에 사용되는 텍스트양(조 단위의 토큰)에 필적함
-> 마치 인간을 번역할 수 있을 것이란 기대 - 3 가지 도전 과제
- 다양한 세포 유형과 상태를 포괄하는 통합 데이터베이스의 부재
- 약 20,000개의 유전자로 구성된 매우 긴 '문장'을 처리해야 하는 트랜스포머 모델의 한계
- 실험실 및 기술별로 상이한 시퀀싱 리드 깊이(read depth)의 높은 가변성
2. Idea
- 5,000만 개 이상의 단일 세포 프로파일로 학습
- 1억 개의 매개변수를 가지고 약 20,000개의 유전자를 다루는 scFoundation을 개발
- 비대칭 아키텍처와 리드 깊이의 차이를 조정하고 유전자 간 관계를 포착하는 RDA(Read-Depth-Aware) 모델링 특징
1. multiple downstream task를 수행
- cell clustering, drug response prediction on bulk data, singe-cell drug response classification, single cell prepertubation prediction, cell type annotation
2. 위 다중 테스크들에서, non-fine-tuned 또는 ligt-fine-tuned만으로 좋은 성능에 도달
3. gene 임베딩을 사용하여 유전자 모듈과 유전자 조절 네트워크를 해석할 수 있음

- 입력 데이터: 네, 특정 세포 하나에서 측정된 약 20,000개(정확히는 19,264개)의 단백질 코딩 유전자 발현값이 입력
- scFoundation은 각 유전자에 대해 '유전자 이름 임베딩(Gene name embeddings)'을 사용
- Bayesian Downsampling (베이지안 다운샘플링): 원본 데이터에서 기술적 요인으로 데이터가 누락되는 상황을 시뮬레이션하기 위해, 통계적 방법으로 리드 수를 무작위로 줄여 낮은 리드 깊이의 변이 데이터를 만드는 전략
- Zero Mask & Nonzero Mask:
- Zero Mask: 원래 발현값이 0인 유전자를 가림
- Nonzero Mask: 실제 발현값이 있는 유전자를 가림
- 두 가지를 모두 가리고 예측하게 함으로써,
모델은 단순히 0이 아닌 값을 맞추는 것을 넘어 유전자 간의 복잡한 상관관계를 학습
- 비대칭적 구조 (Asymmetric Architecture):
- 인코더(Encoder): 전체 20,000개 유전자 중 **실제로 발현값이 있고 마스킹되지 않은 유전자(약 10% 내외)만 입력
- 디코더(Decoder): 인코더의 결과와 '마스킹된 위치 정보'를 합쳐 전체 20,000개 유전자의 값을 모두 예측
4. Materials & Methods
RDA(Read-Depth-Aware) 모델링
즉, 학습의 정답이 되는 원래 세포의 데이터의 전체 발현값(T)을 기반으로 실제 세포 상태를 반영한 전체 발현값(S)를 보고
입력 샘플의 총 리드수 (S, Source): 모델에 실제로 '입력'으로 넣어주는 데이터의 전체 발현량 합계입니다,.
- 어떤 연구자가 아주 정밀하게 시퀀싱하여 **세포 하나당 총 10,000개의 리드(Read)**를 얻었다고 가정합시다. 이것이 T = 10,000인 '원본 샘플'
- 모델을 학습시킬 때, 이 데이터를 일부러 누락시켜 총 리드가 1,000개인 것처럼 줄인 데이터를 만듭니다. 이것이 S = 1,000인 '입력 샘플'
- 모델은 "리드 수가 1,000개인 데이터(S)를 보고, 원래 10,000개였을 때(T)의 유전자별 발현 값이 무엇이었을지 맞춰봐"라는 과제를 수행하며 학습
- 리드 깊이가 서로 다른 세포들을 동일한 기준(유전자 간의 관계)에서 이해할 수도 있도록 유도함.
5. Evaluation & Findings
- 참고할만한 clustering 비교 지표:
- normalized mutual information (NMI), adjusted Rand index (ARI) and silhouette coefficient (SIL)
- 왜 다양하게 비교지표를 쓰는 것이 중요한가..fig2.f에 의하면 비슷한 성능이라고 뭉갠다음 sil 에 완전히 뛰어났다. 이런식으로 포장이 가능해짐.
- Drug response에서 주로 사용하는 평가 지표: Pearson’s correlation coefficient (PCC), Spearman’s correlation coefficient (SCC) and root mean squared error (RMSE)
- 주로 RMSE, R2 값을 많이 보여주는데 PCC(0.93)만 리포트 하고 있음.
- 비교한 모델: imputation methods including MAGIC26, SAVER27, scImpute28 and scVI25 on a human pan- creatic islet dataset processed by SAVER.
5.1 Improving Cancer Drug Response Prediction
DeepCDR 모델의 유전자 발현 처리 모듈을 scFoundation 임베딩으로 교체하여 예측 성능의 비약적 향상을 입증함.
- 베이스라인(Baseline): DeepCDR (MLP 서브네트워크 기반 구조)
- 주요 성능 지표: 피어슨 상관계수 (PCC)
- 실험 결과 및 분석:
- 전반적 향상: 대부분의 약물 및 암 유형에서 베이스라인 대비 높은 PCC 기록 (최상위 사례 PCC 0.93).
- 약물 제외 테스트(Drug-blind test) 성과:
- PHA-793887: 0.07-> 0.73(대폭 상승)
- Zibotentan: 0.49 -> 0.64
- 치료 유형별 특성: 화학요법(Chemotherapy) 약물이 표적 치료제보다 높은 PCC를 보임. 이는 유전자 발현 데이터가 화학요법의 반응 기전과 더 밀접하게 연관되어 있기 때문으로 분석됨.
5.2 Transferring Bulk Drug Response to Single Cells
벌크(Bulk) 데이터에서 학습된 약물 반응 지식을 단일 세포(Single-cell) 수준으로 효과적으로 전이(Transfer)함.
- 베이스라인(Baseline): SCAD (전체 유전자 발현 값을 직접 입력하는 방식)
- 주요 성능 지표: AUC, 스피어만 상관계수, 클러스터링 지수(CH, SIL)
- 실험 결과 및 분석:
- 분류 성능 (AUC): 주요 4종 약물(sorafenib, NVP-TAE684, PLX4720, etoposide) 모두에서 베이스라인 상회. 특히 일부 약물은 AUC 0.2 이상 상승.
- 생체 지표(Biomarker) 연관성: 예측 민감도와 EpiSen 점수 간의 스피어만 상관계수 비교 결과, 베이스라인(0.24, -0.06) 대비 scFoundation(0.56, -0.55)이 훨씬 높은 상관관계를 보임.
- 데이터 표현력: PCA 시각화 및 클러스터링 지표(CH 점수, 실루엣 점수)를 통해, 원본 데이터보다 약물 반응 신호를 더 명확하게 구분하는 풍부한 임베딩임을 증명.
6. Take away
- 발현값을 예측하는 모델인데
시퀀스를 가려놓고 read depth를 target/srouce 각각에 대해 예측하도록함. - RDA 모델링? 비대칭적 encoder, decoder 구조가 이미 컴퓨터비전에서 쓰이고있었는데이게 sparcity에 좋다고해서
baseline에서 어떤 약물/타입 이 실패했는지 보기 쉬움:
