https://www.nature.com/articles/s42256-025-01007-9
The impact factor of Nature Machine Intelligence is 23.9
저널 클럽에서 읽은 논문인데, 새로운 돌파구 모델을 찾는 목적으로 훝어보고자한다.
tansformer 딥러닝 아키텍처를 기반으로 둔 LLM 모델은 자연어 처리에 혁명을 불러왔다. 사람의 언어와 유전체의 생물학적 코드 간의 유사성에 연감을 받아, 연구자들은 트랜스포머 혹은 관련 아키텍처를 기반으로한 gLM 개발을 시작했다. 이 리뷰는 유전체 도메인에서 트랜스포머와 언어 모델의 사용을 탐고한다. 우리는 우리는 gLM(generative Language Models)의 활용이 가능한 유전체학(genomics) 분야의 미해결(open) 질문들을 조사하고(survey)(amenable to the use of) 이 문제를 위한 트랜스포머 아키텍처와 gLM 사용의 동기부여한다. 우리는 유전체를 모델링하기위해 비지도학습을 사용한, 특히 zeor 혹은 few shot learning에서의 강점에 집중하여 gLM의 잠재성을 논의한다(discuss). 우리는 트랜스포머 아키텍처의 강점과 한계점뿐만아니라 현재 gLM 을 넓게 탐구(explore)한다. 또한 우리는 현재 연구 동향을 바탕으로 트랜스포머 아키텍처를 넘어선 유전체 모델링의 미래를 고찰한다. 이 리뷰는 트랜스포머와 유전체 데이터 언어 모델에 관심이 있는 컴퓨팅 생물학자와 컴퓨터 과학자들을 위한 가이드 역할을 한다.
Motivation & Purpose
- 유전체학에서는 크로마틴 접근성, 메틸화, 전사 상태, 크로마틴 구조, 결합된 분자 등을 포함한 다양한 실험 기법의 등장으로 대규모이며 다양한 유형의 데이터가 생성되었다. 이러한 오믹스 데이터셋이 제시하는 많은 과제를 해결하기 위해 딥러닝 도구들이 광범위하게 사용되고 있다.
- 예를 들어, 딥러닝의 주요 응용 중 하나는 DNA 서열로부터 고차원적 생물학적 특성(전사인자 결합, RNA 결합, 크로마틴 접근성, 유전자 발현, RNA-seq 커버리지, 프로모터/인핸서 영역 등)을 예측하는 것이다. 기존에는 CNN(합성곱 신경망) 기반의 구조가 주를 이뤘으나, 컴퓨터 비전과 자연어 처리 분야에서 Transformer 모델이 성공을 거두면서 유전체 모델링에도 Transformer가 적용되기 시작했다.
- 이미 유전체학에서 딥러닝을 다룬 리뷰들이 존재하지만, 이 리뷰의 차별점은 다음과 같다:
- Transformer 기반 시퀀스 예측에 초점
- Transformer를 gLM으로 활용하는 경우에 주목
- Transformer 이외의 아키텍처를 가진 gLM들까지 포함하여 분석
An open problem in genomics
- 약 2%만이 단백질을 암호화, 나머지 non-coding 영역의 기능은 명확히 밝혀지지 않음.
- 유전체의 조절 문법(regulatory grammar)을 해독이 핵심 목표중 하나
- 그러나 환경 조건, 발달 단계, 세포 유형에 따라 달라질 수 있기 때문에 복잡성이 매우 높다.
- 유전체 내 조절 메커니즘은 매우 크고 복잡하기 때문에, 연구자들은 이를 더 작은 단위로 나누어 접근한다.
예를 들어 다음과 같은 세부 과제에 초점을 맞춘다:- 프로모터(promoter) 또는 **인핸서(enhancer)**와 같은 조절 요소 식별
- 돌연변이의 유해성 판단 (해로운지 아닌지)
- 전사인자 결합 부위 예측
- 스플라이스(splice) 부위 예측
- 유전자 발현량 예측
- 크로마틴 접근성 예측
What data do deep learning models for genomics train on?
유전체 정보를 염기서열 외의 다른 관점에서 측정한 데이터도 존재한다.
예를 들어:
- ATAC-seq 및 DNase-seq: DNA 접근성 측정
- Hi-C: 3차원 유전체 접촉 지도
- ChIP-seq: 단백질–DNA 상호작용
- RNA-seq 및 single-cell RNA-seq: 전사(transcription) 활동 측정
- CRISPR perturbation: 특정 비암호화 DNA를 제거하거나 억제했을 때 유전자 발현이 어떻게 변화하는지를 통해 해당 영역이 인핸서 등 조절 요소인지 확인
이러한 다양한 유전체 데이터는 ENCODE, Roadmap Epigenomics, GTEx, 1000 Genomes Project 등의 공개 프로젝트를 통해 접근할 수 있다.
A comparison
Transformer 요소를 포함한 **하이브리드 모델(hybrid models)**은 Transformer 기반 gLM이나 다른 아키텍처의 gLM과 **동일한 과업(task)**으로 평가되지 않는 경우가 많다.
하이브리드 모델은 보통 **지도 학습(supervised)**을 통해 **실험 기반 데이터(assay data)**를 예측하는 데 사용되며,
gLM은 **사전 학습된 표현(pretrained representations)**을 평가하거나,
지도 파인튜닝(fine-tuning) 이후의 성능을 통해 평가된다.
gLM의 사전 학습된 임베딩(embedding)을 평가할 경우,
대체로 지도 학습 모델보다 성능이 낮게 나오는 경향이 있다【59,73】.
이러한 성능 차이는 학습 목표(training objective)의 차이에서 기인할 수 있다:
- gLM은 다양한 후속 과업에 활용 가능한 일반적 표현을 학습하는 것이 목적이며,
- 하이브리드 모델은 특정 과업에서의 높은 정확도를 목표로 설계되기 때문이다.
또한 gLM의 성능이 낮게 보이는 이유 중 하나는,
사전 학습 과업(pretraining task)의 설계가 비효율적이거나 불완전하기 때문일 수도 있다.
많은 gLM 논문들이 전문적인 지도 학습 방법과의 zero-shot 성능 비교를 보고하지 않기 때문이다.
gLM은 보통 더 많은 모델 파라미터와 더 많은 사전 학습 데이터를 필요로 하므로,
만약 작은 모델이 더 나은 성능을 낸다면 gLM을 굳이 사용할 이유가 줄어든다.
따라서 gLM은 최소한 zero-shot 상황에서는 하이브리드 모델과 비슷한 성능을 보여야 하며,
파인튜닝 이후에는 다양한 과업에서 하이브리드 모델을 능가하는 성능을 보여야 그 가치가 있다.
gLM 비교를 표준화하기 위해 최근 여러 벤치마크가 제안되었다:
- GenomicBenchmarks【102】
- GUE (Genome Understanding Evaluation)【39】
GUE – Genome Understanding Evaluation
- 출처: DNABERT‑2 논문에서 “We identify the absence of a comprehensive and standardized benchmark … we propose the Genome Understanding Evaluation (GUE)”. arXiv+1
- 목적: 게놈(다종(species) 포함) 시퀀스에 대해 언어모델(Genome-LM)이 얼마나 “이해(understanding)”을 잘 하고 있는지 평가하기 위함.
- 데이터 특징: 36개 distinct datasets × 9개 태스크 × 여러 종 (human, mouse, yeast, virus 등) 포함. 입력 시퀀스 길이도 70bp ~ 10,000bp 범위. arXiv+2GitHub+2
- 태스크 예시:
- Promoter / transcription start sites (TSS) 예측
- 스플라이스 사이트 (splice sites) 예측
- 전사인자 결합(TF binding) 예측
- 종간(sequence origin) 분류 등
- 평가 기준: 일반적으로 분류 태스크(AUROC, AUPRC, 정확도 등)로 비교됨. DNABERT-2 논문에서 “on GUE benchmark … DNABERT-2 achieves comparable performance with 21× fewer parameters” 식으로 언급됨. GitHub+1
- 의의: gLM들이 다양한 태스크에서 비교 가능하게 평가될 수 있도록 만든 초기 “표준” 벤치마크.
- 한계: 대부분 “짧은 시퀀스(수백 또는 수천 bp)” 중심, long-range 상호작용(long-distance dependencies) 평가에는 한계 있음.
- BEND 벤치마크 논문【59】
BEND – Benchmarking DNA Language Models on Biologically Meaningful Tasks
- 출처: Marin et al., arXiv/ICLR 2024 논문. arXiv+2Research Profiles+2
- 목적: 기존 평가 방식이 “모델마다 태스크가 달라서 비교가 어렵다” + “현실 생물학적 문제(길이, 희소성, 비-코딩 영역 등)를 충분히 반영하지 않는다”는 문제의식에서 출발함. arXiv+1
- 데이터 특징: 인간(Human) 게놈 기반으로 여러 downstream 태스크를 포함. 예컨대 enhancer annotation, gene finding, chromatin accessibility, 히스톤 마크 예측 등. ICLR Proceedings+1
- 태스크 예시:
- Enhancer annotation: 주어진 시퀀스에서 enhancer vs non-enhancer 분류. ICLR Proceedings
- Chromatin accessibility: 특정 세포타입에서 open/closed chromatin 상태 예측. 예: 512 bp 윈도우 입력. ICLR Proceedings
- Gene finding: DNA sequence 내에서 엑손, 인트론, 스플라이스 사이트 등 인식. ICLR Proceedings
- 평가 기준: 모델에서 추출한 임베딩(embedding) 혹은 fine-tuned 성능 모두 비교됨. 논문에서는 “embedding만 사용하는 경우도 expert method(생물정보학 도구) 대비 어느 정도 따라잡음”이라는 결론도 나옴. Research Profiles
- 의의: 생물학적 현실성을 높인 벤치마크.
- 한계: 여전히 대부분 “짧은~중간 길이 시퀀스” 위주이며, ultra-long 거리(distance) 의존성(long-range interactions)을 충분히 반영하진 않음.
- GenomicBenchmarks와 GUE는 파인튜닝 후 성능을 평가한다.
- 반면 BEND는 zero-shot / few-shot 성능을 평가한다.
- 방법: gLM 임베딩을 그대로 사용하거나, gLM 위에 얕은 CNN을 덧붙여서 예측 수행
Limitation
이전 리뷰 논문들은 딥러닝 모델을 유전체 데이터에 적용할 때 발생하는 일반적인 한계점들 — 예를 들어 세포 유형 특이성(cell-type specificity) 문제나, 학습 데이터의 제약 등 — 에 집중한 바 있다【55】.
이 리뷰에서는 이러한 일반적인 이슈 대신, Transformer 및 SSM(상태 공간 모델)과 같은 새로운 아키텍처를 유전체학에 적용할 때의 고유한 한계점들에 초점을 맞춘다.
장거리 상호작용 (Long-range interactions)
현존하는 하이브리드 모델조차도 유전체 내 **장거리 의존성(long-range dependencies)**을 완전히 포착하지 못하고 있다.
이는 많은 실험 기반 예측 모델들이 장거리 상호작용을 더 잘 모델링하기 위해 컨텍스트 윈도우(context window) 크기를 점점 늘려 왔음에도 불구하고 해결되지 않은 문제이다.
그러나 Karollus 외 연구진【93】은, Enformer 모델을 비롯한 최신 모델들의 성능 향상이 단순히 윈도우 크기의 확장 때문만은 아니라고 지적한다.
그들은 Enformer 모델의 입력 시퀀스 길이를 크게 줄였음에도 예측 성능이 거의 떨어지지 않았다는 실험 결과를 통해,
이러한 성능이 실제로는 Transformer 모듈 추가나 파라미터 수 증가에서 비롯된 것일 가능성을 제시했다.
Enformer의 후속 모델인 Borzoi는 CRISPR 스크린 기반 인핸서-유전자 연결성(rank) 평가에서 장거리 정보를 더 잘 통합하는 듯 보인다.
하지만 Enformer에서 수행된 것과 유사한 방식으로 Borzoi의 입력 길이를 대폭 줄였을 때 성능을 테스트한 연구는 아직 존재하지 않는다.
이러한 이유로 판단할 때, 장거리 의존성을 제대로 모델링하려면 단순한 윈도우 확장만으로는 부족하며,
distal eQTLs, 먼 거리 인핸서, 억제자(repressors) 등의 장거리 조절 요소를 포착할 수 있도록 데이터셋 자체가 정제되어야 한다.
계산적 한계 및 구조
Transformer 기반 gLM 중에서도 downsampling(차원 축소) 없이 self-attention을 그대로 계산하거나,
보다 효율적인 attention 구현 기법을 사용하지 않는 모델들은 컨텍스트 윈도우 크기에서 한계를 가질 수밖에 없다.
예를 들어, 2.5억 개 이상의 파라미터를 가진 Nucleotide Transformer조차도 최대 1,000개 토큰 길이까지만 처리할 수 있는데,
이는 HyenaDNA 모델이 처리하는 100만 토큰 길이에 비하면 1,000배 작다.
Transformer에서 사용되는 어텐션 메커니즘의 계산 복잡도가 쌍대(pairwise) 연산에 기반한 이차적(quadratic) 구조를 가지기 때문에,
서열 길이가 길어질수록 메모리 사용량과 연산 시간이 급격히 증가하는 것이 원인이다.
대안적 접근법의 가능성
Transformer에서 이차 복잡도 문제를 회피한 gLM — 예를 들어 HyenaDNA와 같은 모델 — 들은
장거리 상호작용을 더 효과적으로 포착할 수 있는 가능성을 보여준다.
다만, 이러한 모델들의 성공이 어텐션 메커니즘 그 자체 때문인지,
혹은 단지 대규모 사전 학습의 효과 때문인지는 아직 명확히 밝혀지지 않았다.
Transformer는 현재 gLM(generative Language Model)에서 가장 널리 사용되는 아키텍처이지만,
**동일한 사전 학습 방식(Masked Language Modeling, Autoregressive Language Modeling)**을 적용할 수 있는 대체 모델 구조들도 존재하며, 이들은 성능 면에서 Transformer와 경쟁할 수 있다【79,80】.
Transformer의 성공이 실제로 어텐션 메커니즘의 구조적 특징 때문인지, 혹은 그 메커니즘 덕분에 단지 모델을 더 빠르게 대규모화할 수 있었기 때문인지는 아직 불확실하다. 또한, Transformer가 가진 강점이 사전 학습(pretraining)의 유연성에서 비롯되었다면,
이는 꼭 Transformer에만 고유한 것이 아니기 때문에 다른 아키텍처로도 충분히 대체 가능할 수 있다【79,100,101】.
🧬 GPN (Genomic Pretrained Network)
GPN 모델은 Transformer의 인코더 모듈과 구조는 동일하지만,
핵심인 어텐션 메커니즘을 제거하고 **합성곱 연산(convolution operation)**으로 대체하였다.
이 아이디어는 최근 자연어 처리(NLP)와 단백질 모델링에서 사전 학습된 CNN이 Transformer와 경쟁 가능하다는 연구【80,81】에 기반을 두고 있다.
GPN은 단일 뉴클레오타이드(single nucleotide) 단위로 입력을 처리하며,
k-mer 또는 BPE 같은 토크나이제이션 전략은 사용하지 않는다.
사전 학습에 사용된 유전체는 **브라시카속(Brassicales)**에 속하는 8종의 참조 유전체였으며,
각 시퀀스는 유전체 전체에서 무작위로 균등 샘플링된 것이 아니라:
- 엑손(exons)
- 프로모터(promoters, TSS 앞의 1,000bp)
- 기타 랜덤 구간
에서 조합되었다. 저자들은 이러한 방식이 성능 향상에 기여했을 수 있다고 주장하지만,
이를 직접적으로 검증하는 실험은 제시하지 않았다.
GPN은 오직 유전체 DNA 서열만을 사용한 비지도 학습으로도 비암호화(non-coding) 변이의 기능적 효과를 예측할 수 있었으며,
이는 기존의 지도 학습 기반 모델(예: DeepSEA【21】)보다 더 나은 성능을 보여주었다.
🧠 HyenaDNA
Transformer가 갖는 어텐션의 계산 비용 문제를 해결하기 위해 등장한 또 다른 모델이 바로 HyenaDNA이다【46】.
이 모델은 최대 100만 개 뉴클레오타이드에 달하는 초장거리 컨텍스트를 처리할 수 있으며,
이는 기존 Transformer 기반 gLM보다 500배 긴 길이다 (예: Nucleotide Transformer는 2,000 토큰 정도).
HyenaDNA는 전통적인 **쌍대 어텐션(pairwise attention)**이 아닌,
**서브이차 시간(subquadratic time)**의 연산을 사용하는 Hyena 연산자로 어텐션을 대체한다.
구조적으로는 디코더 전용(decoder-only) Transformer와 유사하며,
ALM(Autoregressive Language Modeling) 방식으로 사전 학습된다.
HyenaDNA는 단 하나의 인간 유전체(reference genome)만을 학습에 사용했지만,
GenomicBenchmarks에서 제공하는 8개의 다양한 데이터셋 모두에서 **최신 성능(state-of-the-art)**을 달성했다【102】.
🌱 Evo 모델
최근 제안된 **Evo 모델【84】**은 전체 프로카리오트(세균) 유전체를 대상으로 학습된 모델이다.
이 모델은 StripedHyena 아키텍처를 기반으로 하는데, 이는 어텐션 레이어와 Hyena 레이어를 결합한 구조이다.
Evo는 Transformer, Mamba, 기존 Hyena 등의 모델들과 비교해
왜 StripedHyena 구조를 사용하는 것이 적합한지를 설명하기 위해 **스케일링 법칙(scaling laws)**에 대한 실험도 제시했다.
⚠️ 스케일링 법칙이란:
사전 학습 데이터의 양, 모델 크기, 성능 간의 관계를 정량적으로 분석하는 방법.
NLP 분야에서는 "더 큰 모델 + 더 많은 데이터 = 더 높은 성능"이라는 경험 법칙이 있다【103】.
그러나 이러한 스케일링 법칙이 gLM이나 단백질 언어 모델에도 동일하게 적용되는지는 아직 충분히 검증되지 않았다【104,105】.
Evo는 다음과 같은 예측 과업에서 강력한 성능을 보였다:
- 비암호화(non-coding) RNA 변이가 세포의 **적응도(fitness)**에 미치는 영향 (ncRNA DMS 실험 기반)
- 프로모터–RNA 결합 서열 쌍으로부터 유전자 발현량 예측
- 유전자 필수성(essentiality) 예측 (필수 유전자 변이 시 likelihood가 더 크게 감소)
다만 Evo는 프로카리오트 유전체만 학습했고,
**진핵생물(eukaryote)**의 복잡한 유전체를 다루는 데 있어서도 동일한 성능을 보일지는 아직 미지수이다.
모델 분류: 하이브리드 vs gLM
▪ 하이브리드 모델
- 다양한 구조(예: CNN, RNN 등)와 Transformer 모듈을 결합한 복합 구조
- 주로 실험 데이터 예측(assay prediction)에 특화
- **DeepBind【20,21】**와 같은 CNN 기반 모델과 유사한 역할 수행
- 보통 사전 학습 없이 특정 과업에 대해 지도 학습만 수행
- 결과적으로 범용성은 낮지만 특정 과업에서 높은 성능을 달성
▪ gLM
- 핵심 특성은 **사전 학습(pretraining)**을 수행한다는 점
- 더 일반화된 표현 학습이 가능하며, 다양한 후속 과업에 활용될 수 있음