sCIN: a contrastive learning framework for single-cell multi-omics data integration

https://academic.oup.com/bib/article/26/4/bbaf411/8241298?guestAccessKey=

2025, Briefings in Bioinformatics, 1 citation

데이터 long tail 문제를 겪고 있어서 contrastive learning으로 보강하고 싶어짐. 방법론을 참고하고자 함.

단일 세포 RNA 시퀀싱(scRNA-seq)이나 단일 세포 ATAC-seq 같은 기술의 급격한 발전은 세포의 이질성과 조절 메커니즘에 대한 우리의 이해를 완전히 바꿔놓았다. 하지만 이러한 서로 다른 데이터 타입들을 통합하는 것은 여전히 어렵다. 데이터의 분포 차이가 크고, 각 데이터가 가진 특징(Feature) 공간이 서로 다르기 때문이다. 이를 해결하기 위해, 우리는 서로 다른 오믹스 모달리티(Modality)를 하나의 공유된 저차원 잠재 공간(Latent space)으로 통합하는 새로운 단일 세포 대조 통합 프레임워크(sCIN)를 제안한다. sCIN은 각 모달리티별 인코더와 대조 학습(Contrastive learning)을 사용해 각 데이터의 잠재 표현을 생성하며, 이를 통해 세포들을 정렬하고 기술적인 편향(Bias)을 제거한다.

이 프레임워크는 학습 데이터와 테스트 데이터 간의 정보 누출(Data leakage)을 엄격히 방지하도록 설계되었다. 우리는 네 가지 실제 데이터셋으로 광범위한 평가를 진행했는데.,

쌍을 이룬 데이터(Paired datasets): 동일한 세포군에서 여러 특징을 동시에 뽑아낸 데이터 (SHARE-seq, 10X PBMC, CITE-seq 등 3종).
쌍을 이루지 않은 데이터(Unpaired datasets): 동일 조직 내 서로 다른 세포군에서 측정한 데이터 (유전자 발현 및 염색질 접근성 데이터 1종).

실험 결과, sCIN은 scGLUE, scBridge, sciCAN, Con-AAE, Harmony, MOFA+와 같은 기존의 최첨단 모델들을 능가하는 성능을 보였습니다. (클러스터링 품질을 나타내는 ASW, Recall@k, 세포 타입 정확도 등 다양한 지표에서 우수함 확인). 또한, sCIN은 생물학적 의미를 보존하면서도 데이터를 안정적으로 통합해낼 수 있음을 입증했다.

1. Object

기술적 편향(Batch Effect) 제거
통합된 분석 공간 생성
세포 유형 간의 구분(Clustering quality)을 훨씬 명확하게하기 위함.
RNA 정보만 있는 세포 데이터와 ATAC 정보만 있는 세포 데이터가 있을 때, 이들이 공유된 공간상에서 같은 세포 유형끼리 얼마나 잘 모여있는지 확인하거나 대응되는 쌍을 찾을 수 있음
정보량이 적은 데이터도 유전자 발현 정보와 통합함으로써 더 정확하게 세포의 정체를 파악할 수 있음.

2. Idea

sCIN은 OpenAI에서 개발한 CLIP 아키텍처를 기반을 두고 있다.
- CLIP은 이미지와 텍스트 임베딩을 공유 잠재 공간에 정렬하는 모델이다.
- 쌍을 이룬 데이터(Paired datasets): 같은 세포군 끼리 임베딩을 가깝게
- 쌍을 이루지 않은 데이터(Unpaired datasets): 같은 세포 유형의 임베딩 끼리 가깝게, 서로 다른 세포 유형으 ㅣ임베딩은 분리
feature value:
- 각 세포마다 존재하는 수만 개의 유전자(RNA)와 수십만 개의 피크(ATAC) 각각에 대한 값이 행렬 형태로 존재
- Normalized & Scaled
- PCA로 256 차원으로 축소
sCIN의 인코더는 **Linear(256) → Batch Norm → ReLU → Linear(128)**의 구조를 가진 신경망

4. Materials & Methods

22가지 세포 유형에 걸쳐 32,231개의 마우스 피부 세포를 프로파일링하는 SHARE-seq(simultaneous high-throughput ATAC and RNA expression with sequencing)
symmetric cross-entropy loss: sCIN constructs M×M matrices for mini-batches, consisting of similarity between embedding of the first and second modalities
- 즉 각 인코더에서 나온 임베딩을 정규화(normalized)한 후 코사인 유사도를 계산하여 비교한느 방식임.
negative sampling 별도 복잡한 기법을 사용하지않고
- mini batch내에서
- positivie 쌍이 아닌 모든 경우를 Negative로 처리
- 노이즈가 많은 단일 세포 데이터에서 모델이 오버피팅되는 것을 방지하고 더욱 안정적인 학습 신호를 제공하기 위함이라는데.. negative 샘플링이 많은게 오버피팅을 막는가..?
두 개의 양식별 인코더(modality-specific encoders)는 대조 학습 과정에서 함께(jointly) 학습

5. Take away

1. 세포 유형 라벨(Cell-type labels) 의존성

sCIN은 학습 시 세포 유형 라벨에 의존적
단일 세포 데이터는 노이즈가 심하고 데이터가 희소(sparsity)하여 정확한 라벨링(Annotation)을 하는 것 자체가 어려움(즉 데이터 구하기가 어려움).
비지도/자기지도 학습 도입 필요
- 라벨에 대한 의존도를 낮추기 위해 비지도 학습(Unsupervised) 또는 자기지도 학습(Self-supervised) 방식을 탐색하고자 함.

2. 데이터 공유 가정의 오류 가능성

'쌍을 이루지 않은(unpaired)' 데이터를 통합할 때, 모든 오믹스 데이터가 동일한 세포 유형을 공유한다고 가정하지만
특정 데이터에만 존재하는 독특한 세포가 있거나 데이터 질의 차이로 인해 이 가정이 맞지 않을 수 있습니다.

3. 통합 가능한 오믹스 종류의 제한

현재의 프레임워크는 두 가지 오믹스 모달리티를 통합하는 수준에 머물러 있음.
더 다양한 데이터를 동시에 다루기에는 한계가 있음.

4. 연속적 생물학적 과정 분석의 어려움

sCIN은 명확히 구분되는 '불연속적(discrete)' 세포 유형을 위해 설계됨.
세포 분화나 발달과 같은 '연속적(continuous)'인 흐름을 분석하기에는 적합하지 않음

저작자표시 (새창열림)

'Paper' 카테고리의 다른 글

PrePR-CT,Predicting and interpreting cell-type-specific drug responses in the small-data regime using inductive priors (0)	2026.03.23
Benchmarking deep learning models for predicting anticancer drug potency (IC50) with insights for medicinal chemists (0)	2026.03.19
26-SNP Panel Aids Guiding Androgenetic Alopecia Therapy and Provides Insight into Mechanisms of Action (0)	2026.03.18
Explainable drug sensitivity prediction through cancer pathway enrichment (0)	2026.03.12
ArcDFI: Attention regularization guided by CYP450 interactions for predicting drug-food interactions (0)	2026.03.11

Bioinfomatics

sCIN: a contrastive learning framework for single-cell multi-omics data integration