sCIN: a contrastive learning framework for single-cell multi-omics data integration
https://academic.oup.com/bib/article/26/4/bbaf411/8241298?guestAccessKey=
2025, Briefings in Bioinformatics, 1 citation
데이터 long tail 문제를 겪고 있어서 contrastive learning으로 보강하고 싶어짐. 방법론을 참고하고자 함.
단일 세포 RNA 시퀀싱(scRNA-seq)이나 단일 세포 ATAC-seq 같은 기술의 급격한 발전은 세포의 이질성과 조절 메커니즘에 대한 우리의 이해를 완전히 바꿔놓았다. 하지만 이러한 서로 다른 데이터 타입들을 통합하는 것은 여전히 어렵다. 데이터의 분포 차이가 크고, 각 데이터가 가진 특징(Feature) 공간이 서로 다르기 때문이다. 이를 해결하기 위해, 우리는 서로 다른 오믹스 모달리티(Modality)를 하나의 공유된 저차원 잠재 공간(Latent space)으로 통합하는 새로운 단일 세포 대조 통합 프레임워크(sCIN)를 제안한다. sCIN은 각 모달리티별 인코더와 대조 학습(Contrastive learning)을 사용해 각 데이터의 잠재 표현을 생성하며, 이를 통해 세포들을 정렬하고 기술적인 편향(Bias)을 제거한다.
이 프레임워크는 학습 데이터와 테스트 데이터 간의 정보 누출(Data leakage)을 엄격히 방지하도록 설계되었다. 우리는 네 가지 실제 데이터셋으로 광범위한 평가를 진행했는데.,
- 쌍을 이룬 데이터(Paired datasets): 동일한 세포군에서 여러 특징을 동시에 뽑아낸 데이터 (SHARE-seq, 10X PBMC, CITE-seq 등 3종).
- 쌍을 이루지 않은 데이터(Unpaired datasets): 동일 조직 내 서로 다른 세포군에서 측정한 데이터 (유전자 발현 및 염색질 접근성 데이터 1종).
실험 결과, sCIN은 scGLUE, scBridge, sciCAN, Con-AAE, Harmony, MOFA+와 같은 기존의 최첨단 모델들을 능가하는 성능을 보였습니다. (클러스터링 품질을 나타내는 ASW, Recall@k, 세포 타입 정확도 등 다양한 지표에서 우수함 확인). 또한, sCIN은 생물학적 의미를 보존하면서도 데이터를 안정적으로 통합해낼 수 있음을 입증했다.
1. Object
- 기술적 편향(Batch Effect) 제거
- 통합된 분석 공간 생성
- 세포 유형 간의 구분(Clustering quality)을 훨씬 명확하게하기 위함.
- RNA 정보만 있는 세포 데이터와 ATAC 정보만 있는 세포 데이터가 있을 때, 이들이 공유된 공간상에서 같은 세포 유형끼리 얼마나 잘 모여있는지 확인하거나 대응되는 쌍을 찾을 수 있음
- 정보량이 적은 데이터도 유전자 발현 정보와 통합함으로써 더 정확하게 세포의 정체를 파악할 수 있음.
2. Idea
- sCIN은 OpenAI에서 개발한 CLIP 아키텍처를 기반을 두고 있다.
- CLIP은 이미지와 텍스트 임베딩을 공유 잠재 공간에 정렬하는 모델이다.
- 쌍을 이룬 데이터(Paired datasets): 같은 세포군 끼리 임베딩을 가깝게
- 쌍을 이루지 않은 데이터(Unpaired datasets): 같은 세포 유형의 임베딩 끼리 가깝게, 서로 다른 세포 유형으 ㅣ임베딩은 분리
- feature value:
- 각 세포마다 존재하는 수만 개의 유전자(RNA)와 수십만 개의 피크(ATAC) 각각에 대한 값이 행렬 형태로 존재
- Normalized & Scaled
- PCA로 256 차원으로 축소
- sCIN의 인코더는 **Linear(256) → Batch Norm → ReLU → Linear(128)**의 구조를 가진 신경망


4. Materials & Methods
- 22가지 세포 유형에 걸쳐 32,231개의 마우스 피부 세포를 프로파일링하는 SHARE-seq(simultaneous high-throughput ATAC and RNA expression with sequencing)
- symmetric cross-entropy loss: sCIN constructs M×M matrices for mini-batches, consisting of similarity between embedding of the first and second modalities
- 즉 각 인코더에서 나온 임베딩을 정규화(normalized)한 후 코사인 유사도를 계산하여 비교한느 방식임.
- negative sampling 별도 복잡한 기법을 사용하지않고
- mini batch내에서
- positivie 쌍이 아닌 모든 경우를 Negative로 처리
- 노이즈가 많은 단일 세포 데이터에서 모델이 오버피팅되는 것을 방지하고 더욱 안정적인 학습 신호를 제공하기 위함이라는데.. negative 샘플링이 많은게 오버피팅을 막는가..?
- 두 개의 양식별 인코더(modality-specific encoders)는 대조 학습 과정에서 함께(jointly) 학습
5. Take away
1. 세포 유형 라벨(Cell-type labels) 의존성
- sCIN은 학습 시 세포 유형 라벨에 의존적
- 단일 세포 데이터는 노이즈가 심하고 데이터가 희소(sparsity)하여 정확한 라벨링(Annotation)을 하는 것 자체가 어려움(즉 데이터 구하기가 어려움).
- 비지도/자기지도 학습 도입 필요
- 라벨에 대한 의존도를 낮추기 위해 비지도 학습(Unsupervised) 또는 자기지도 학습(Self-supervised) 방식을 탐색하고자 함.
2. 데이터 공유 가정의 오류 가능성
- '쌍을 이루지 않은(unpaired)' 데이터를 통합할 때, 모든 오믹스 데이터가 동일한 세포 유형을 공유한다고 가정하지만
- 특정 데이터에만 존재하는 독특한 세포가 있거나 데이터 질의 차이로 인해 이 가정이 맞지 않을 수 있습니다.
3. 통합 가능한 오믹스 종류의 제한
- 현재의 프레임워크는 두 가지 오믹스 모달리티를 통합하는 수준에 머물러 있음.
- 더 다양한 데이터를 동시에 다루기에는 한계가 있음.
4. 연속적 생물학적 과정 분석의 어려움
- sCIN은 명확히 구분되는 '불연속적(discrete)' 세포 유형을 위해 설계됨.
- 세포 분화나 발달과 같은 '연속적(continuous)'인 흐름을 분석하기에는 적합하지 않음