본문 바로가기

Paper

Genomic Language Models: Opportunities and Challenges

https://arxiv.org/abs/2407.11435

 

Genomic Language Models: Opportunities and Challenges

Large language models (LLMs) are having transformative impacts across a wide range of scientific fields, particularly in the biomedical sciences. Just as the goal of Natural Language Processing is to understand sequences of words, a major objective in biol

arxiv.org

 

저널 클럽용이지만, 관심있는 분야(VEP)의 LLM 모델 리뷰 논문으로써 연구에 참고가 될 것 같음


 

Motivation & Purpose

  • LLMs(large language models)는 여러 분야에서 큰 영향을 주었는데, biological sequences를 이해하는데에 큰 잠재성이 있는 것으로 주목받고 있다. 
  • 논문에서는 DNA sequence를 학습한 LLM을 gLMs(genomic language models), 아미노산 서열을 학습한 LLM을 pLMs(protein language models)으로 명명하고 있다.
  • gLM은 pLM과 달리 DNA서열 특징으로 개발의 어려움을 겪고있다.

  • General Language Model Framework(Box1)
    • 학습 방식
      • MLM(Masked Language Modeling) : 앞뒤 token(여기서는 neucleotide)을 보고 masked token을 예측하는 방식이다. 대표적인 예로는 BERT가 있다.
      • CLM(Causal Language Modeling) : 앞의 토큰을 쭉 보고 다음으로 올 token을 예측하는 방식이다. 대표적으로 GPT가 이 방식을 사용한다.
      • 전통적으로 사람의 경험이나 지식을 바탕으로 설계된 모델은 특정 편향을 가질 수 있다. 또한 사람이 해당 배경 지식과 경험을 축적하는 데 시간과 비용이 들어간다. 반면, LLM(대형 언어 모델)은 방대한 데이터로부터 스스로 학습하여 맥락과 배경을 이해한다.
      • 예를 들어, LLM은 masked neucleotdie를 예측하는 과정(학습 과정)에서 각 영역의 특징을 파악(featrue extraction)ㅎ한다. 이를 UMAP으로 시각화한 결과(figure 2.d)에서, 서로 다른 지역들이 명확하게 클러스터링되어 나타난 것을 확인함으로써 시퀀스 맥락을 이해하는 것을 알 수 있다.
    • 응용 방식의 3가지
      1. Variant likeihood -> Functional constraint prediction
        •  
      2. Sampling -> Sequence degin
      3. Task-specific heads by Transfer learning -> Gene annotation, Gene expression prediction, ...

  • 그리고 gLM 개발 단계를 소개하며, 각 단계별 마주하는 문제점과 주의가 필요한 부분을 소개하고 있다.
    1. Training data
    2. Model architecture
    3. Learning objective
    4. Interpretation
    5. Evaluation

  • 결론에서는 gLM 분야가 해결해야할 문제를 정리하고 있다.
    1. How can we best model patterns across a wide range of scales, from motifs to genes to whole genomes?
    2. For which applications is it important to model long-range interactions and how does one determine a suitable size of the receptive field?
    3. How can we incorporate structural variations into gLMs?
    4. What is the best way to utilize population genetic data when training gLMs?
    5. How can we best integrate gLMs with other complex modalities, such as transcriptomic and epigenetic data?
    6. For developing gLMs, can we better understand what makes some genomes harder to model than others?
    7. Will the scaling hypothesis hold for gLMs, and for how long? Are there really that much data available, considering that most may be non-functional?

Interested in

  • 동기1
  • 목적1