간단리뷰 Day 40. Large-scale foundation model on single-cell transcriptomics

Large-scale foundation model on single-cell transcriptomics

https://www.nature.com/articles/s41592-024-02305-7

2024, nature methods, 508 citation

drug-cell response 예측하는 벤치마킹 논문에서 cell type상관없이 일관된 준수한 성능을 보여 살펴보고자함.

대규모 사전 학습 모델은 자연어 처리 및 관련 분야에서 비약적인 발전을 이끄는 기반 모델(Foundation Model)로 자리 잡았다. 세포의 '언어'를 해독하고 생의학 연구를 촉진하기 위한 기반 모델을 개발하는 것은 유망하면서도 동시에 매우 도전적인 과제이다. 본 연구에서는 약 2만 개의 유전자를 아우르는 1억 개의 파라미터를 보유하고, 5,000만 개 이상의 인간 단일 세포 전사체 프로파일로 사전 학습된 대규모 모델 'scFoundation'(일명 xTrimoscFoundationα)을 개발했습니다. scFoundation은 학습 가능한 파라미터 수, 유전자 차원의 수, 그리고 학습 데이터 양의 측면에서 진정한 대규모 모델이라 할 수 있다.
이 모델의 비대칭적 트랜스포머(Transformer) 유사 아키텍처와 사전 학습 작업 설계는 다양한 세포 유형과 상태에서 나타나는 유전자 간의 복잡한 문맥 관계를 효과적으로 포착할 수 있게한다. 실험 결과, scFoundation은 유전자 발현 증강, 조직 약물 반응 예측, 단일 세포 약물 반응 분류, 단일 세포 섭동 예측, 세포 유형 주석(Annotation) 및 유전자 모듈 추론 등 다양한 단일 세포 분석 작업에서 최고 수준(SOTA)의 성능을 달성하며 기반 모델로서의 우수성을 입증했다.

*Leading to breakthroughs,큰 발전을 이뤄온,비약적인 발전을 이끄는 / 혁신을 주도하는
*100 million,100 밀리언,1억 개
*Merit,장점,가치 / 우수성

*Empower effectively capturing: 효과적인 포착을 가능하게 한다

*Promising yet challenging 유망하면서도 도전적인

*Leading to breakthroughs 비약적인 발전을 이끄는

1. Background

대규모로 사전학습한 모델이 생명과학분야 downstream 분석에서 돌파구가됨.
-> 셀 하나를 하나의 문장으로 DNA나 RNA 및 유전자 발현 값을 단어로 간주하는 파운데이션 모델 도입 가능성
scRNA-seq 데이터가 충분히 많다.
자연어 처리 분야에서 LL 학습에 사용되는 텍스트양(조 단위의 토큰)에 필적함
-> 마치 인간을 번역할 수 있을 것이란 기대
3 가지 도전 과제
- 다양한 세포 유형과 상태를 포괄하는 통합 데이터베이스의 부재
- 약 20,000개의 유전자로 구성된 매우 긴 '문장'을 처리해야 하는 트랜스포머 모델의 한계
- 실험실 및 기술별로 상이한 시퀀싱 리드 깊이(read depth)의 높은 가변성

2. Idea

5,000만 개 이상의 단일 세포 프로파일로 학습
1억 개의 매개변수를 가지고 약 20,000개의 유전자를 다루는 scFoundation을 개발
비대칭 아키텍처와 리드 깊이의 차이를 조정하고 유전자 간 관계를 포착하는 RDA(Read-Depth-Aware) 모델링 특징

1. multiple downstream task를 수행

cell clustering, drug response prediction on bulk data, singe-cell drug response classification, single cell prepertubation prediction, cell type annotation

2. 위 다중 테스크들에서, non-fine-tuned 또는 ligt-fine-tuned만으로 좋은 성능에 도달

3. gene 임베딩을 사용하여 유전자 모듈과 유전자 조절 네트워크를 해석할 수 있음

입력 데이터: 네, 특정 세포 하나에서 측정된 약 20,000개(정확히는 19,264개)의 단백질 코딩 유전자 발현값이 입력
scFoundation은 각 유전자에 대해 '유전자 이름 임베딩(Gene name embeddings)'을 사용
Bayesian Downsampling (베이지안 다운샘플링): 원본 데이터에서 기술적 요인으로 데이터가 누락되는 상황을 시뮬레이션하기 위해, 통계적 방법으로 리드 수를 무작위로 줄여 낮은 리드 깊이의 변이 데이터를 만드는 전략
Zero Mask & Nonzero Mask:
- Zero Mask: 원래 발현값이 0인 유전자를 가림
- Nonzero Mask: 실제 발현값이 있는 유전자를 가림
- 두 가지를 모두 가리고 예측하게 함으로써,
  모델은 단순히 0이 아닌 값을 맞추는 것을 넘어 유전자 간의 복잡한 상관관계를 학습

비대칭적 구조 (Asymmetric Architecture):
- 인코더(Encoder): 전체 20,000개 유전자 중 **실제로 발현값이 있고 마스킹되지 않은 유전자(약 10% 내외)만 입력
- 디코더(Decoder): 인코더의 결과와 '마스킹된 위치 정보'를 합쳐 전체 20,000개 유전자의 값을 모두 예측

4. Materials & Methods

RDA(Read-Depth-Aware) 모델링

• 리드 깊이 지표(T, S) 도입: RDA 모델링은 마스크된 유전자 발현 값을 예측할 때 *Target(T)'과 'Source(S)'라는 두 가지 총 카운트(total counts) 지표를 함께 사용함. 여기서 T는 원본 샘플의 총 리드 수이고, S는 입력 샘플의 총 리드 수 이다. 이 정보들을 토큰으로 재도입함으로써 모델이 리드 깊이 값과 유전자 발현 간의 상관관계를 학습할 수 있게 합니다.

• 저해상도 변이 학습을 통한 조화(Harmonization): 학습 단계에서 리드 깊이가 낮은 변이 샘플(low-read-depth variant)을 입력받아 원본 샘플의 발현 값을 예측하도록 함.

• 리드 깊이 강화(Read-Depth Enhancement): 추론 단계에서 사용자는 원하는 목표 리드 깊이(T)를 실제 입력된 리드 깊이(S)보다 높게 설정함으로써, 데이터가 극도로 희소하거나 리드 깊이가 낮은 환경에서도 유전자 발현 정보를 보강하고 더 정확한 세포 임베딩을 생성할 수 있습니다.

-> 이러한 학습-추론 단계를 통해 모델은 서로 다른 리드 깊이를 가진 세포들 사이의 관계를 연결하고, 다양한 실험실이나 기술적 배경에서 오는 리드 깊이의 차이(테크니컬 이슈라고하며, 오염 및 무작위 노이즈임)를 '조화(Harmonize)'시키도록 유도
즉, 학습의 정답이 되는 원래 세포의 데이터의 전체 발현값(T)을 기반으로 실제 세포 상태를 반영한 전체 발현값(S)를 보고

원본 샘플의 총 리드수 (T, Target): 학습의 '정답'이 되는 원래 세포 데이터의 전체 발현량 합계
입력 샘플의 총 리드수 (S, Source): 모델에 실제로 '입력'으로 넣어주는 데이터의 전체 발현량 합계입니다,.

• 자세한 예시:

어떤 연구자가 아주 정밀하게 시퀀싱하여 **세포 하나당 총 10,000개의 리드(Read)**를 얻었다고 가정합시다. 이것이 T = 10,000인 '원본 샘플'
모델을 학습시킬 때, 이 데이터를 일부러 누락시켜 총 리드가 1,000개인 것처럼 줄인 데이터를 만듭니다. 이것이 S = 1,000인 '입력 샘플'
모델은 "리드 수가 1,000개인 데이터(S)를 보고, 원래 10,000개였을 때(T)의 유전자별 발현 값이 무엇이었을지 맞춰봐"라는 과제를 수행하며 학습
리드 깊이가 서로 다른 세포들을 동일한 기준(유전자 간의 관계)에서 이해할 수도 있도록 유도함.

• 비임의적 노이즈 대응: 시퀀싱 리드 깊이는 체계적인 변동을 일으키는데, RDA 모델링은 대규모 데이터를 통해 이러한 비임의적 가변성을 학습하여 모델이 일관된 세포 및 유전자 표현(representation)을 학습하지 못하게 방해하는 요소를 제거함

5. Evaluation & Findings

참고할만한 clustering 비교 지표:
- normalized mutual information (NMI), adjusted Rand index (ARI) and silhouette coefficient (SIL)
- 왜 다양하게 비교지표를 쓰는 것이 중요한가..fig2.f에 의하면 비슷한 성능이라고 뭉갠다음 sil 에 완전히 뛰어났다. 이런식으로 포장이 가능해짐.
- Drug response에서 주로 사용하는 평가 지표: Pearson’s correlation coefficient (PCC), Spearman’s correlation coefficient (SCC) and root mean squared error (RMSE)
- 주로 RMSE, R2 값을 많이 보여주는데 PCC(0.93)만 리포트 하고 있음.
비교한 모델: imputation methods including MAGIC26, SAVER27, scImpute28 and scVI25 on a human pan- creatic islet dataset processed by SAVER.

5.1 Improving Cancer Drug Response Prediction

DeepCDR 모델의 유전자 발현 처리 모듈을 scFoundation 임베딩으로 교체하여 예측 성능의 비약적 향상을 입증함.

베이스라인(Baseline): DeepCDR (MLP 서브네트워크 기반 구조)
주요 성능 지표: 피어슨 상관계수 (PCC)
실험 결과 및 분석:
- 전반적 향상: 대부분의 약물 및 암 유형에서 베이스라인 대비 높은 PCC 기록 (최상위 사례 PCC 0.93).
- 약물 제외 테스트(Drug-blind test) 성과:
  - PHA-793887: 0.07-> 0.73(대폭 상승)
  - Zibotentan: 0.49 -> 0.64
- 치료 유형별 특성: 화학요법(Chemotherapy) 약물이 표적 치료제보다 높은 PCC를 보임. 이는 유전자 발현 데이터가 화학요법의 반응 기전과 더 밀접하게 연관되어 있기 때문으로 분석됨.

5.2 Transferring Bulk Drug Response to Single Cells

벌크(Bulk) 데이터에서 학습된 약물 반응 지식을 단일 세포(Single-cell) 수준으로 효과적으로 전이(Transfer)함.

베이스라인(Baseline): SCAD (전체 유전자 발현 값을 직접 입력하는 방식)
주요 성능 지표: AUC, 스피어만 상관계수, 클러스터링 지수(CH, SIL)
실험 결과 및 분석:
- 분류 성능 (AUC): 주요 4종 약물(sorafenib, NVP-TAE684, PLX4720, etoposide) 모두에서 베이스라인 상회. 특히 일부 약물은 AUC 0.2 이상 상승.
- 생체 지표(Biomarker) 연관성: 예측 민감도와 EpiSen 점수 간의 스피어만 상관계수 비교 결과, 베이스라인(0.24, -0.06) 대비 scFoundation(0.56, -0.55)이 훨씬 높은 상관관계를 보임.
- 데이터 표현력: PCA 시각화 및 클러스터링 지표(CH 점수, 실루엣 점수)를 통해, 원본 데이터보다 약물 반응 신호를 더 명확하게 구분하는 풍부한 임베딩임을 증명.

6. Take away

발현값을 예측하는 모델인데
시퀀스를 가려놓고 read depth를 target/srouce 각각에 대해 예측하도록함.
RDA 모델링? 비대칭적 encoder, decoder 구조가 이미 컴퓨터비전에서 쓰이고있었는데이게 sparcity에 좋다고해서

baseline에서 어떤 약물/타입 이 실패했는지 보기 쉬움:

저작자표시 (새창열림)

'Paper' 카테고리의 다른 글

간단리뷰 Day 41. Benchmarking of deep neural networks for predicting personal gene expression from DNA sequence highlights shortcomings (0)	2026.02.01
간단리뷰 Day 45. drGT: Attention-Guided Gene Assessment of DrugResponse Utilizing a Drug-Cell-Gene HeterogeneousNetwork (0)	2026.01.29
간단리뷰 Day 39. Deep-learning prediction of gene expression from personal genomes ((검토끝나면 다시 읽어볼것) (0)	2026.01.26
간단리뷰 Day 38. scDrugMap: benchmarking large foundation models for drug response prediction(( 더 자세히 볼 것)) (0)	2026.01.22
간단리뷰 Day 31. Ancestral diversity in complex disease genetics: from discovery to translation (0)	2026.01.20

Bioinfomatics

간단리뷰 Day 40. Large-scale foundation model on single-cell transcriptomics

Large-scale foundation model on single-cell transcriptomics

1. Background

2. Idea

4. Materials & Methods

5. Evaluation & Findings

5.1 Improving Cancer Drug Response Prediction

5.2 Transferring Bulk Drug Response to Single Cells

6. Take away

'Paper' 카테고리의 다른 글

티스토리툴바

간단리뷰 Day 40. Large-scale foundation model on single-cell transcriptomics

Large-scale foundation model on single-cell transcriptomics

1. Background

2. Idea

4. Materials & Methods

5. Evaluation & Findings

5.1 Improving Cancer Drug Response Prediction

5.2 Transferring Bulk Drug Response to Single Cells

6. Take away

'Paper' 카테고리의 다른 글

'Paper' Related Articles

티스토리툴바