Benchmarking DNA foundation models
for genomic and genetic tasks
https://www.nature.com/articles/s41467-025-65823-8?fromPaywallRec=false#Sec2
2025, nature communications
계획하려고했던 밴치마킹논문으로 형식이나 task 설정 참고용.
특히 variant 임베딩 분석을 어떻게 했는지 확인필요.
DNA 파운데이션 모델의 급격한 진화는 유전체학의 혁신을 예고하고 있으나(promises to V), 아직 종합적인 평가는 부족한 실정이다. 본 연구에서는 DNABERT-2, Nucleotide Transformer V2, HyenaDNA, Caduceus-Ph, GROVER 등 5개 모델을 대상으로, 제로샷(zero-shot) 임베딩을 활용하여 시퀀스 분류, 유전자 발현 예측, 변이 효과 정량화, 그리고 TAD(topologically associating domain) 영역 인식 등 다양한 유전체 및 유전학적 과제에 대한 포괄적이고 비편향적인 벤치마크를 제시한다.
분석 결과,평균 토큰 임베딩(mean token embedding) 방식이 다른 풀링(pooling) 전략보다 시퀀스 분류 성능을 일관되고 유의미하게 향상시키는 것으로 나타났다.
모델의 성능은 과제와 데이터셋에 따라 차이를 보였다.
- 일반 목적의 DNA 파운데이션 모델들은 병원성 변이 식별에서 경쟁력 있는 성능을 보였으나,
- 유전자 발현 예측 및 인과적 QTL(putative causal QTLs) 식별에서는 특화된 모델들에 비해 효과가 떨어졌다.
본 연구의 결과는 모델 아키텍처, 사전 학습 데이터, 그리고 임베딩 전략이 유전체 과제 성과에 미치는 영향을 조명하며, 연구 목적에 맞는 모델 선택을 위한 가이드라인(framework)을 제공한다.
1. Overview of sequence classification benchmark workflow
- pooling 방식 선택: summary token/mean pooling/max pooling
- supervied classfifier 모델 선택: 랜덤포레스트, 나이브 베이즈, 엘라스틱넷 로지스틱 회귀
ㄴ 하이퍼파라미터 튜닝 최소화, 차원축소없이 고차원 입력 처리 가능 (추가적인 평가 편향 완화)

결과:
*summary token = [CLS] or [SEP]
- 모델별 평균토큰임베딩방식의 성능비교 (52개 이진 분류 데이터셋 기준) :
- NT-v2: 42개 데이터셋에서 최고 성능 (가장 높은 빈도)
- DNABERT-2 / GROVER: 각 41개 데이터셋에서 최고 성능
- Caduceus-Ph: 37개 데이터셋에서 최고 성능
- HyenaDNA: 35개 데이터셋에서 최고 성능
- 최대 풀링이나 요약 토큰 풀링 -> 특정 데이터셋에서만 최적의 성능을 보였으며, 이는 드물었음.
- 풀링 방법의 성능에 유의미한 차이가 있음, DeLong의 통계적 유의성 검정( p < 0.01)을 사용
- 단일 요약 토큰에 의존하는 것보다 전체 DNA 서열을 더욱 포괄적으로 표현할 수 있음을 시사
- 모델 간 성능 차이가 감소 관찰.

task 정의 -> 목적 정의 input/output, 결과요약 추가할 것: method 중심으로 보면됨.
1. Sequence classification: human genome regions
2. Sequence classification: multispecies genome regions
3. Sequence classification: human & multispecies epigenetic modification
4. Gene expression prediction
5. Variant effect quantification
5.1. pathogenic/common snp : NT-v2와 Caduceus-Ph
- Cohen’s d: 두 집단(병원성 vs 일반) 간의 차이가 얼마나 뚜렷한지 보여주는 지표
-결과:
- Enformer/Sei (Functional track 기반): 이 모델들은 특정 위치의 DNA가 단백질과 결합하는지(ChIP-seq), 개방되어 있는지(ATAC-seq) 같은 '결과적 상태'를 학습합니다.
- NT-v2 (Foundation Model): 반면 NT-v2는 850종의 방대한 게놈 서열 자체를 학습했습니다.
- 결론: 논문은 "병원성 변이를 결정짓는 미세한 서열 패턴(subtle, sequence-level patterns)을 파악하는 데는, 단순히 기능적 마커를 배우는 것보다 수많은 종의 진화적 맥락을 서열 자체로 학습하는 것이 더 효과적일 수 있다"고 시사하고 있습니다.

5.2.
- to distinguish putative causal QTLs from non-causal variants: lphaGenome 22 , Enformer 23 , Sei 24 )은 분명하고 일관된 우위를 보임.
결과:
- 가장 믿을만한 모델:Caduceus-Ph (가장 일관된 성능)
- 작은 데이터셋의 위험: 샘플 수가 적으면 모델 성능이 운(염색체 선택)에 따라 갈릴 수 있음
- 최적의 서열 길이: 단일 SNP 예측에는 수십만 bp의 긴 문맥보다 적절히 짧은 문맥이 더 유리할 수 있음
- 예측 방법론: 단순히 서열을 길게 넣는 것이 답이 아니라, 신호를 보존할 분석 기법이 필요함


6. Pre-training experiment
7. TAD region recognition

Method
기반 토큰화 방식 주요 특징 및 차별점 주요 사양 (Para/Dim/Limit)
| 모델명 (연도) | 아키텍처 | 학습 데이터 | 토큰화 방식 | 주요 특징 | 사양 (Para/Dim/Limit) |
| DNABERT-2 (2024) | BERT (Encoder-only) | 135종 게놈 (MLM) | BPE (패턴 기반) | ALiBi 위치 임베딩 적용, 가변 길이 대응 | 1.17억 / 768 / 무제한 (복잡도 O(N^2)) |
| NT-v2 (2025) | BERT (Encoder-only) | 850종 게놈 (MLM) | 6-mer (고정) | Swish 활성화 함수, RoPE 편향 제거 | 약 5억 / 1024 / 12,000 nt |
| HyenaDNA (2023) | Decoder (Hyena 연산자) | 인간 참조 게놈 | Single nt (A,C,G,T) |
컨볼루션+게이팅 결합, 초장거리 서열 최적화 | 3,000만 / 256 / 100만 nt |
| Caduceus-Ph (2024) | MambaDNA (SSM 기반) | 구조/맥락 특성 | nt-level | BiMamba (양방향), RC(역상보) 등변성 구현 | 약 3,500만 / 256 / 13.1만 nt |
| GROVER (2024) | BERT (12 Layer) | 게놈 특징 캡슐화 | Optimized BPE | GC 함량 등 생물학적 특징 임베딩 반영 | 1.17억 / 768 / 약 2,000 nt (512 토큰) |
* Transformer 계열 (DNABERT-2, NT-v2, GROVER): 전통적인 Attention 메커니즘을 사용하며 정밀한 맥락 파악에 강점이 있으나, 시퀀스가 길어질수록 연산 비용이 급격히 증가
*Non-Transformer 계열 (HyenaDNA, Caduceus-Ph): 어텐션의 연산 병목을 해결하기 위해 컨볼루션이나 SSM(State Space Model)을 사용하여 백만 단위의 초장거리 시퀀스를 처리하는 데 특화
Variant effect quantification benchmark
0. Dataset
0.1. 병원성 SNP vs 일반 SNP 데이터셋 (Pathogenic vs Common)
이 데이터셋은 질병과 연관된 나쁜 변이와 흔한 변이를 모델이 구분할 수 있는지 측정합니다.
- 데이터 출처: Genomics Long-Range Benchmark (GLRB) 자료 활용.
- 구성 방식: 각 SNP 위치의 중앙 염기를 바꾼 {참조 서열(Ref), 대립 서열(Alt)} 쌍을 생성.
- 데이터 규모:
- Long (196,608 bp): 병원성 22,222개 / 일반 17,374개.
- Short (6,000 bp): 병원성 22,239개 / 일반 17,398개.
- 평가 목적: 임베딩 값의 변화(Alt - Ref)만으로 병원성 변이와 단순 변이의 생물학적 차이를 구별할 수 있는지 확인.
0.2. 추정 인과 QTL 데이터셋 (Putative Causal QTL)
이 데이터셋은 유전자 발현이나 가공(Splicing)에 실제로 영향을 주는 '인과적' 변이를 찾아내는 능력을 평가합니다.
- 데이터 출처: Borzoi 연구에서 큐레이션된 GTEx v8 기반 통계적 파인매핑(Fine-mapped) 데이터. (주로 전혈(Whole Blood) 조직 대상)
- QTL 세부 유형:
- eQTL (발현): 1,896개
- sQTL (스플라이싱): 540개
- ipaQTL / paQTL (폴리아데닐화 관련): 각각 116개 / 142개
- 대조군(Negative set)의 강점: 단순히 무작위 변이를 쓰는 것이 아니라, 기능적 부위와의 거리나 유전자 발현 수준이 비슷한 **'가장 까다로운 비인과 변이'**를 매칭하여 데이터셋의 난이도와 신뢰도를 높임.
- 데이터 규모: 위와 동일하게 Long(196k bp) 및 Short(6k bp) 두 버전으로 구축.
0.3. 데이터셋 구축의 공통 원칙
- Zero-shot 평가: 모델을 변이 데이터로 직접 학습시키는 것이 아니라, 이미 학습된 임베딩 능력(Zero-shot)을 그대로 평가함.
- 예외 처리: 염색체의 맨 앞이나 끝에 위치하여 필요한 서열 길이를 확보할 수 없는 소수의 SNP는 제거함.
1. 기본 분석 방법론 (Methodology)
- 변이 효과 벡터 추출: 참조 서열(Ref)과 변이 서열(Alt)의 임베딩 값을 각각 뽑은 뒤, Embedding(Alt) - Embedding(Ref) 연산을 통해 변이만의 고유한 효과를 수치화했습니다.
- 분류기 학습: 추출된 고차원 벡터를 입력값으로 사용하여 랜덤 포레스트(Random Forest) 모델을 학습시켰습니다.
- 성능 평가: 이 모델이 '병원성 변이'와 '일반 변이'를 얼마나 정확하게 분류하는지 평가했습니다.
2. 엄격한 평가 전략 (Evaluation Strategy)
- 염색체 기반 분할: 유전적 상관관계(LD)로 인한 데이터 누수(Data Leakage)를 막기 위해, 특정 염색체를 통째로 테스트 세트로 떼어놓는 Strict Chromosome-based Holdout 방식을 사용했습니다.
- 중첩 교차 검증 (Nested CV): * 데이터가 적은 QTL 태스크의 변동성을 줄이기 위해 전체 염색체를 3개 그룹으로 나누어 교차 검증을 수행했습니다.
- 내부(Inner) 루프에서는 하이퍼파라미터를 튜닝하고, 외부(Outer) 루프에서는 최종 성능을 측정했습니다.
- 최종 지표: 세 번의 독립적인 테스트 결과에서 얻은 AUC와 Cohen’s d의 평균값을 최종 성능으로 보고했습니다.
3. 서열 길이별 모델 비교 (Comparison Setup)
- Short Sequence (6,000 bp) 그룹:
- DNABERT-2, NT-v2, GROVER, Caduceus-Ph, HyenaDNA, Sei가 참여했습니다.
- GROVER는 모델 제약상 중앙 2,048 nt를, Sei는 중앙 4,096 nt를 사용했습니다.
- Long Sequence (196,608 bp) 그룹:
- Caduceus-Ph, HyenaDNA, Enformer, AlphaGenome이 참여했습니다.
- Caduceus-Ph와 AlphaGenome은 긴 서열 중 중앙의 약 13만 nt(131,072)를 집중적으로 분석했습니다.
4. 고차원 데이터 최적화 (Optimization)
- 정보 보존: 임베딩 벡터의 차원을 줄이지 않고(No dimensionality reduction) 원본 정보를 그대로 사용했습니다.
- 안정성 확보: 차원이 매우 높은 모델(Sei, Enformer 등)의 경우, 랜덤 포레스트의 max_features 설정을 **'logarithm'**으로 제한하여 나무들 간의 상관관계를 낮추고 과적합을 방지했습니다.
6. Take away
- 진단이나 실제 환자데이터로 테스트하는 레벨은 아니어서. 우리가 공략해볼만함.