간단논문 Day9. GenePT: A Simple But Effective Foundation Modelfor Genes and Cells Built From ChatGPT

GenePT: A Simple But Effective Foundation Model
for Genes and Cells Built From ChatGPT

https://pmc.ncbi.nlm.nih.gov/articles/PMC10614824/

2023, bioRxiv, 101 citation

GPT를 발 빠르게 cell 데이터에 접목한 논문, Stanford CS 저자들

nature biomedical engineering 에 full paper가 나왔다. 2025년 논문이지만 벌써 47 citation

제목은 "Simple and effective embedding model for single-cell biology built from ChatGPT"

1. Problem

대규모 single-cell 발현 데이터를 활용한 Geneformer and scGPT 와 같은 foundation 모델을 개발하는데 상당한 진전이 있었다. 이는 암묵적으로 유전자 및 세포 기능을 학습한다.
- foundation model(FM): 광범위한 일반화 데이터와 레이블이 지정되지 않은 데이터에 대해 훈련된 general 모델
본 연구에서는 시퀀스 기반의 모델이 아닌 문헌 기반의 모델을 이용해 훨씬 더 간단한 대안을 모색했다.
- Novelity: dataset을 검토하거나 추가 pretrianing을 하지않아도 된다는 점, 간단한 점을 강조.
다양한 downstream task 에서 성능을 평가했을때, 종종 기존의 geneformer와 같은 모델 성능과 견주거나 뛰어넘는 모습을 보임.
- classifying gene properties and cell types

2. Related Work

Foundation models for single-cell transcriptomics:
- task: cell type annotation, gene functional and regulatory network inference, sample integration
- data: Gene Expression Omnibus, Human Cell Atlas
- model: scGPT, Geneformer

Using language models for cell biology

유전자 이름에 매핑된 representation vector가 해당 유전자를 잘 표현하도록 함
1. 단어 간 공동출현(co-occurrence) 패턴을 기반
2. Word2Vec, GloVe와 유사한 뉴럴 임베딩 모델
3. 생물학 용어 간 의미적 관계를 벡터 공간에서 포현

세포 유형 주석: BioBERT/BioMegatron 임베딩으로 인코딩된 생물학적 의미를 조사함.

기존 연구는 직접 질의하는 방식 -> description으로 표현을 추출

문맥 전체(contextual information) 를 반영 연구자 모델/접근법 특징

Hou & Ji (2023)	ChatGPT	세포 타입 주석(cell type annotation)에 LLM 직접 활용
Wysocki et al. (2023)	BioBERT, BioMegatron	생물의학 의미가 임베딩에 어떻게 내재되어 있는지 분석
Ye et al. (2024)	Instruction-tuned LLM	그래프 데이터 관련 태스크에서 LLM 미세조정으로 경쟁력 입증
Levine et al.	LLM based 세포를 “유전자 이름의 시퀀스(sequence)”로 변환, 발현량 상위 100개 유전자를 사용하여 새로운 세포 생성(generative) 연구 수행	특정 세포 유형 기반으로 새로운 세포 시뮬레이션

3. Deciphering(해독) natural language embeddings

Probing: 일종의 지도학습 모델, 이를 활용해 언어모델 임베딩으로부터 특정 속성(property)을 예측

RQ1	자연어 기반 유전자 임베딩이 해당 유전자의 생물학적 기능을 내재적으로 표현하고 있는가?
RQ2	세포 수준에서 자연어 임베딩(유전자 이름 순서 기반)이 세포의 생물학적 특성을 포착하고 있는가?

3. Idea

GPT-3.5 사용, NCBI 텍스트 이용해 유전자 임베딩 생성
- 전략1) 유전자 발현 수준을 고려한 유전자 임베딩 가중평균
- 전략2) 각 세포에 대한 문장 임베딩 생성시, 유전자 발현 수준으로 정렬된 유전자 이름을 사용

4. Materials & Methods

NCBI gene DB에서 summary section에서 추출 (mean: 73 words; interquartile range: 25–116) , GPT로 gene 임베딩 생성(dim: 1,536), 유전자 이름 aliases 또한 생성한 gene 임베딩에 매핑, 유전자 이름만/유전자 이름 + 유전자 요약 / 모든 description 3가지 중에서 2개가 gene-gene interaction prediction 에서 크게 향상됨. 다른건 딱히
GenePT-w cell embeddings framework : cell x gene matrix 를 이용해, gene 임베딩 값을 셀 수준의 유전자 가중합 및 정규화
GenePT-s cell embeddings framework: cell x gene matrix를 자연어 문장으로 번역(각 세포마다 유전자 순위가 매겨진), 자연어로부터 임베딩 생성

Gene Summary만 가져왔고,
GeneRIF, GO annotation, full record, PubMed links 등은 사용하지 않음.
summaries for each gene (mean, 73 words; IQR 25–116)
… totalling around 33,000 genes.
약 60,000개 gene alias도 HGNC에서 가져와 embedding에 매핑.
Hyperlink 제거, 날짜 정보 제거

OpenAI text-embedding-ada-002
벡터 차원: 1536 dimension

“GPT-3.5 (text-embedding-ada-002) embeddings… each embedding has a dimension of 1,536.”

5. Evaluation & Findings

평가 항목

GenePT embeddings capture underlying gene functionality: class 분류 문제
1. ari, ami 메트릭활용
GenePT embeddings enable accurate predictions in chromatin dynamics and dosage sensitivity
1. dosage sensitivity: 발현패턴값에 크게 교란되는지
2. bivalent vs non-mehtlated, etc.
3. ℓ2 penalized logistic regression (LR) or a Random Forest (RF) classifier 활용
GenePT learns representations that reflect cell biology
1. 유전자-유전자 레이블(이진 예측)
2. 단백질-단백질
GenePT embedding removes batch effect while preserving underlying biology

6. Take away

Text embedding 에 expression 정보를 가중합한 아이디어가 참신!
NCBI 데이터에 의존적이다. 덜 알려진 기능의 복잡성을 간과.
유전자 및 세포의 역동적이고 맥락 파악에는 어려울 수 있음
gene에 대해 더 pre-training한 gpt모델을 쓰면 더 좋아질 수 있지않을까? 유전자 이름 토큰화는 어떻게 따로 처리 안했는지...도 궁금. 다 쪼개져서 들어갈텐데 figure2. 에서 나름 성능이 나오써 흠..

저작자표시 (새창열림)

'Paper' 카테고리의 다른 글

간단리뷰 Day12. shaPRS: Leveraging shared genetic effects across traits or ancestries improves accuracy of polygenic scores (방법중심으로 다시 보기) (0)	2025.11.05
간단리뷰 Day11. Prefix-Tuning: Optimizing Continuous Prompts for Generation (0)	2025.11.05
간단리뷰 Day10. Boosting GPT models for genomics analysis: generating trusted genetic variant annotations and interpretations through RAG and Fine-tuning (0)	2025.11.04
읽어볼 논문 (0)	2025.10.27
간단리뷰 Day 8. A Novel Balanced-Lethal Host-Vector System Based on glmS (0)	2025.10.22

Bioinfomatics

간단논문 Day9. GenePT: A Simple But Effective Foundation Modelfor Genes and Cells Built From ChatGPT

GenePT: A Simple But Effective Foundation Model
for Genes and Cells Built From ChatGPT

1. Problem

2. Related Work

3. Idea

4. Materials & Methods

5. Evaluation & Findings

6. Take away

'Paper' 카테고리의 다른 글

티스토리툴바

간단논문 Day9. GenePT: A Simple But Effective Foundation Modelfor Genes and Cells Built From ChatGPT

GenePT: A Simple But Effective Foundation Modelfor Genes and Cells Built From ChatGPT

1. Problem

2. Related Work

3. Idea

4. Materials & Methods

5. Evaluation & Findings

6. Take away

'Paper' 카테고리의 다른 글

'Paper' Related Articles

티스토리툴바

GenePT: A Simple But Effective Foundation Model
for Genes and Cells Built From ChatGPT