https://arxiv.org/abs/2407.11435
Genomic Language Models: Opportunities and Challenges
Large language models (LLMs) are having transformative impacts across a wide range of scientific fields, particularly in the biomedical sciences. Just as the goal of Natural Language Processing is to understand sequences of words, a major objective in biol
arxiv.org
저널 클럽용이지만, 관심있는 분야(VEP)의 LLM 모델 리뷰 논문으로써 연구에 참고가 될 것 같음
Motivation & Purpose
- LLMs(large language models)는 여러 분야에서 큰 영향을 주었는데, biological sequences를 이해하는데에 큰 잠재성이 있는 것으로 주목받고 있다.
- 논문에서는 DNA sequence를 학습한 LLM을 gLMs(genomic language models), 아미노산 서열을 학습한 LLM을 pLMs(protein language models)으로 명명하고 있다.
- gLM은 pLM과 달리 DNA서열 특징으로 개발의 어려움을 겪고있다.
- General Language Model Framework(Box1)
- 학습 방식
- MLM(Masked Language Modeling) : 앞뒤 token(여기서는 neucleotide)을 보고 masked token을 예측하는 방식이다. 대표적인 예로는 BERT가 있다.
- CLM(Causal Language Modeling) : 앞의 토큰을 쭉 보고 다음으로 올 token을 예측하는 방식이다. 대표적으로 GPT가 이 방식을 사용한다.
- 전통적으로 사람의 경험이나 지식을 바탕으로 설계된 모델은 특정 편향을 가질 수 있다. 또한 사람이 해당 배경 지식과 경험을 축적하는 데 시간과 비용이 들어간다. 반면, LLM(대형 언어 모델)은 방대한 데이터로부터 스스로 학습하여 맥락과 배경을 이해한다.
- 예를 들어, LLM은 masked neucleotdie를 예측하는 과정(학습 과정)에서 각 영역의 특징을 파악(featrue extraction)ㅎ한다. 이를 UMAP으로 시각화한 결과(figure 2.d)에서, 서로 다른 지역들이 명확하게 클러스터링되어 나타난 것을 확인함으로써 시퀀스 맥락을 이해하는 것을 알 수 있다.
- 응용 방식의 3가지
- Variant likeihood -> Functional constraint prediction
- Sampling -> Sequence degin
- Task-specific heads by Transfer learning -> Gene annotation, Gene expression prediction, ...
- Variant likeihood -> Functional constraint prediction
- 학습 방식
- 그리고 gLM 개발 단계를 소개하며, 각 단계별 마주하는 문제점과 주의가 필요한 부분을 소개하고 있다.
- Training data
- Model architecture
- Learning objective
- Interpretation
- Evaluation
- 결론에서는 gLM 분야가 해결해야할 문제를 정리하고 있다.
- How can we best model patterns across a wide range of scales, from motifs to genes to whole genomes?
- For which applications is it important to model long-range interactions and how does one determine a suitable size of the receptive field?
- How can we incorporate structural variations into gLMs?
- What is the best way to utilize population genetic data when training gLMs?
- How can we best integrate gLMs with other complex modalities, such as transcriptomic and epigenetic data?
- For developing gLMs, can we better understand what makes some genomes harder to model than others?
- Will the scaling hypothesis hold for gLMs, and for how long? Are there really that much data available, considering that most may be non-functional?
Interested in
- 동기1
- 목적1
'Paper' 카테고리의 다른 글
Deep learning in biomedicine (0) | 2025.02.15 |
---|---|
EnsembleCNV: an ensemble machine learning algorithm to identify and genotype copy number variation using SNP array data (1) | 2025.01.28 |
ECOLE: Learning to call copy number variants on whole exome sequencing data (0) | 2025.01.19 |
(Archive)Trasnformer 이해하기 (0) | 2024.12.09 |
1000 Genome Project 샘플을 이용한 지리적 계층화가 나타난 논문정리 (0) | 2024.10.13 |