GenePT: A Simple But Effective Foundation Model
for Genes and Cells Built From ChatGPT
https://pmc.ncbi.nlm.nih.gov/articles/PMC10614824/
2023, bioRxiv, 101 citation
GPT를 발 빠르게 cell 데이터에 접목한 논문, Stanford CS 저자들
nature biomedical engineering 에 full paper가 나왔다. 2025년 논문이지만 벌써 47 citation
제목은 "Simple and effective embedding model for single-cell biology built from ChatGPT"
1. Problem
- 대규모 single-cell 발현 데이터를 활용한 Geneformer and scGPT 와 같은 foundation 모델을 개발하는데 상당한 진전이 있었다. 이는 암묵적으로 유전자 및 세포 기능을 학습한다.
- foundation model(FM): 광범위한 일반화 데이터와 레이블이 지정되지 않은 데이터에 대해 훈련된 general 모델
- 본 연구에서는 시퀀스 기반의 모델이 아닌 문헌 기반의 모델을 이용해 훨씬 더 간단한 대안을 모색했다.
- Novelity: dataset을 검토하거나 추가 pretrianing을 하지않아도 된다는 점, 간단한 점을 강조.
- Novelity: dataset을 검토하거나 추가 pretrianing을 하지않아도 된다는 점, 간단한 점을 강조.
- 다양한 downstream task 에서 성능을 평가했을때, 종종 기존의 geneformer와 같은 모델 성능과 견주거나 뛰어넘는 모습을 보임.
- classifying gene properties and cell types
2. Related Work
- Foundation models for single-cell transcriptomics:
- task: cell type annotation, gene functional and regulatory network inference, sample integration
- data: Gene Expression Omnibus, Human Cell Atlas
- model: scGPT, Geneformer
- Using language models for cell biology
- 유전자 이름에 매핑된 representation vector가 해당 유전자를 잘 표현하도록 함
- 단어 간 공동출현(co-occurrence) 패턴을 기반
- Word2Vec, GloVe와 유사한 뉴럴 임베딩 모델
- 생물학 용어 간 의미적 관계를 벡터 공간에서 포현
- 세포 유형 주석: BioBERT/BioMegatron 임베딩으로 인코딩된 생물학적 의미를 조사함.
- 기존 연구는 직접 질의하는 방식 -> description으로 표현을 추출
- 문맥 전체(contextual information) 를 반영 연구자 모델/접근법 특징
Hou & Ji (2023) ChatGPT 세포 타입 주석(cell type annotation)에 LLM 직접 활용 Wysocki et al. (2023) BioBERT, BioMegatron 생물의학 의미가 임베딩에 어떻게 내재되어 있는지 분석 Ye et al. (2024) Instruction-tuned LLM 그래프 데이터 관련 태스크에서 LLM 미세조정으로 경쟁력 입증 Levine et al. LLM based
세포를 “유전자 이름의 시퀀스(sequence)”로 변환,
발현량 상위 100개 유전자를 사용하여 새로운 세포 생성(generative) 연구 수행특정 세포 유형 기반으로 새로운 세포 시뮬레이션
- 유전자 이름에 매핑된 representation vector가 해당 유전자를 잘 표현하도록 함
3. Deciphering(해독) natural language embeddings
- Probing: 일종의 지도학습 모델, 이를 활용해 언어모델 임베딩으로부터 특정 속성(property)을 예측
| RQ1 | 자연어 기반 유전자 임베딩이 해당 유전자의 생물학적 기능을 내재적으로 표현하고 있는가? |
| RQ2 | 세포 수준에서 자연어 임베딩(유전자 이름 순서 기반)이 세포의 생물학적 특성을 포착하고 있는가? |
3. Idea
- GPT-3.5 사용, NCBI 텍스트 이용해 유전자 임베딩 생성
- 전략1) 유전자 발현 수준을 고려한 유전자 임베딩 가중평균
- 전략2) 각 세포에 대한 문장 임베딩 생성시, 유전자 발현 수준으로 정렬된 유전자 이름을 사용
4. Materials & Methods
- NCBI gene DB에서 summary section에서 추출 (mean: 73 words; interquartile range: 25–116) , GPT로 gene 임베딩 생성(dim: 1,536), 유전자 이름 aliases 또한 생성한 gene 임베딩에 매핑, 유전자 이름만/유전자 이름 + 유전자 요약 / 모든 description 3가지 중에서 2개가 gene-gene interaction prediction 에서 크게 향상됨. 다른건 딱히
- GenePT-w cell embeddings framework : cell x gene matrix 를 이용해, gene 임베딩 값을 셀 수준의 유전자 가중합 및 정규화
- GenePT-s cell embeddings framework: cell x gene matrix를 자연어 문장으로 번역(각 세포마다 유전자 순위가 매겨진), 자연어로부터 임베딩 생성

- Gene Summary만 가져왔고,
GeneRIF, GO annotation, full record, PubMed links 등은 사용하지 않음. - summaries for each gene (mean, 73 words; IQR 25–116)
- … totalling around 33,000 genes.
- 약 60,000개 gene alias도 HGNC에서 가져와 embedding에 매핑.
- Hyperlink 제거, 날짜 정보 제거
- OpenAI text-embedding-ada-002
- 벡터 차원: 1536 dimension
“GPT-3.5 (text-embedding-ada-002) embeddings… each embedding has a dimension of 1,536.”
5. Evaluation & Findings
평가 항목
- GenePT embeddings capture underlying gene functionality: class 분류 문제
- ari, ami 메트릭활용
- GenePT embeddings enable accurate predictions in chromatin dynamics and dosage sensitivity
- dosage sensitivity: 발현패턴값에 크게 교란되는지
- bivalent vs non-mehtlated, etc.
- ℓ2 penalized logistic regression (LR) or a Random Forest (RF) classifier 활용
- GenePT learns representations that reflect cell biology
- 유전자-유전자 레이블(이진 예측)
- 단백질-단백질
- GenePT embedding removes batch effect while preserving underlying biology
6. Take away
- Text embedding 에 expression 정보를 가중합한 아이디어가 참신!
- NCBI 데이터에 의존적이다. 덜 알려진 기능의 복잡성을 간과.
- 유전자 및 세포의 역동적이고 맥락 파악에는 어려울 수 있음
- gene에 대해 더 pre-training한 gpt모델을 쓰면 더 좋아질 수 있지않을까? 유전자 이름 토큰화는 어떻게 따로 처리 안했는지...도 궁금. 다 쪼개져서 들어갈텐데 figure2. 에서 나름 성능이 나오써 흠..