https://www.biorxiv.org/content/10.1101/2025.05.20.655154v1.full
From Likelihood to Fitness: Improving Variant Effect Prediction in Protein and Genome Language Models
Generative models trained on natural sequences are increasingly used to predict the effects of genetic variation, enabling progress in therapeutic design, disease risk prediction, and synthetic biology. In the zero-shot setting, variant impact is estimated
www.biorxiv.org
Summary:
자연의(natural) 시퀀스 그대로 학습한 생성형 모델은 유전적 변이의 효과를 예측하는데 점점 더 많이 활용되고 있으며, 치료제 설계, 질병 위험 예측, 합성 생물학 분야의 발전을 가능하게 하고 있다. 이는 zero-shot (학습에서 본적없는 데이터를 예측해야되는)환경에서는 변이 효과는 가능도(likelihood) 가 적합도(fitness, 자연스러움)의 지표가 될수있다는 가정하에서, 시퀀스의 가능도를 비교하여 추정된다.
*likelihood = 관측된 사건이 고정된 상태(학습이 끝난 모델 = 모델이 고정일 때 = w가 고정일 때)에서, 관측값의 나옸을 확률.
= > 이 값이 maximum 일 수록 natural 시퀀스에 가깝게 예측하고 있음을 관찰할 수 있음
이 차이가 변이의 효과를 나타낸다고 가정
- 만약 변이 서열의 likelihood가 낮다면 → 그 변이는 덜 자연스러워 보이고, 기능에 부정적 영향을 줄 수 있음
- likelihood가 비슷하거나 더 높다면 → 그 변이는 허용 가능하거나, 심지어 유익할 수도 있음
이 방법론을 zero-shot 이라고 한다(별도의 라벨링 없이 모델의 내재된 지식으로 추정하는 방식)
하지만 이러한 가정은 종종 무너지는데, 시퀀스의 가능도는 진화적 적합도 제약뿐 아니라 계통학적 구조(phylogenetic structure)나 샘플링 편향(sampling biases)까지 반영하기 때문에, 특히 모델 용량이 커질수록 이러한 문제가 심화된다. 우리는 Likelihood-Fitness Bridging (LFB)라는 간단하고 일반적인 전략을 소개한다. 이는 유사한 선택압(selective pressure)을 받는 서열들에 대해 모델 점수를 평균냄으로써 변이 효과 예측을 향상시키는 방식임.
* 선택압(selective pressure)
서로 비슷한 진화적 맥락(예: 동일한 기능, 유사한 환경, 동일한 종 또는 계통)을 공유하는 서열들의 score를 평균해서 변이 예측을 더 안정화시키는 것
ex.
- 항생제 내성 유전자: 항생제가 있는 환경에서는 내성 유전자를 가진 세균이 생존에 유리 → 강한 양의 선택압
- 치명적 돌연변이: 기능을 망가뜨리는 변이는 제거됨 → 음의 선택압
오른슈타인-울렌벡(Ornstein-Uhlenbeck)의 진화 모델의 가정하에, LFB는 유전적 부동(genetic drift)의 영향을 주변화(marginalize)하는 방식으로 해석될 수 있지만( can be viewed as ~ ), 그 이점은 이보다 더 넓은 상황에서도 나타난다.
* 오른슈타인-울렌벡(Ornstein-Uhlenbeck)
: OU 과정은 평균을 중심으로 랜덤하게 움직이지만,
시간이 지나면서 다시 평균으로 돌아가려는 성질(회귀 성향, mean-reverting)을 가진 확률 과정
- 완전히 무작위로만 움직이지는 않지만,
- 어떤 평균값(또는 이상적인 상태)을 중심으로 변동하는 시스템.
을 설명할 수 있다. 즉 generic drift + selective pressure 를 고려할 수 있는 모델임

🔹 각 항목의 구성 요소와 의미
1. Xt: 현재 상태
- 시간 t에서의 시스템 상태입니다.
- 예: 특정 유전자의 발현값, 생물 종의 표현형 특성 등
2. θ(μ−Xt) , dt: 결정론적 회귀 항(deterministic mean-reverting term)
- 이 부분이 OU 과정의 핵심입니다.
- 시스템이 평균값 μ\mu로 되돌아가려는 힘을 나타냅니다.
- μ−Xt: 현재 상태가 평균보다 크면 음수 → 평균 쪽으로 감소
- θ: 되돌아가는 속도 (회귀율, "복원력")
🔸 예시:
- μ=0, Xt=1, θ=0.5
→ 변화량 = −0.5 dt → 평균 쪽으로 이동
3. σ dWt: 확률적 잡음 항(stochastic noise term)
- 이건 "완전 랜덤한 요인", 즉 브라운 운동 (Brownian motion)을 반영하는 부분입니다.
- σ: 잡음의 세기 (진동의 크기)
- dWtd: 백색 잡음 (순수 랜덤 변화)
아무리 평균으로 되돌아가려 해도, 실제 현실은 항상 예측 불가능한 변동성(돌연변이, 샘플링 노이즈 등)이 존재하죠. 이걸 수학적으로 표현한 게 이 항입니다.
🔍 전체적으로 보면
OU 과정은 두 힘이 동시에 작용합니다:
항 작용 비유θ(μ−Xt) dt | 되돌리려는 힘 | 스프링 탄성력 |
σ dWt | 랜덤 방해 | 바람, 충돌, 외부 자극 |
🔸 시각적 비유
OU 과정을 시각적으로 비유하면 다음과 같아요:
그릇의 바닥에 놓인 공이 있다고 생각하세요.
- 공은 바닥(μ)으로 굴러가려 하고 (θ\),
- 동시에 외부에서 랜덤한 힘이 계속 작용해 공을 흔듭니다 (σdWt).
그래서 공은 완전히 바닥에 멈춰 있진 않지만,
평균을 중심으로 진동하면서 움직이게 됩니다.
🔸 해석적 해법 (옵션, 고급)
OU 과정은 해석적으로 해를 구할 수 있는 SDE 중 하나입니다.
해는 다음과 같이 표현됩니다:

이 식은:
- 시간이 지날수록 Xt→μ로 수렴함을 보여줍니다.
- 즉, 평균 회귀(mean-reversion)가 수학적으로도 보장됨.
✅ 생물학적 해석 요약
수식 요소 의미 진화 예시θ(μ−Xt) | 선택압 → 적응 방향으로 끌어당김 | 적합한 표현형으로 회귀 |
σdWt | 유전적 부동, 돌연변이 등 | 무작위적 진화 영향 |
μ | 최적 표현형 또는 진화적 평균 | 환경에 적응한 상태 |
* genetic drift( 유전적 부동 )
무작위 샘플링(random sampling) 때문에 유전자 빈도가 세대 간에 우연히 변하는 현상으로,
선택압과 달리, 우연의 결과로 특정 변이가 살아남거나 사라진다. fitness가 무너지는 원인
* marginalize:
수학적으로 marginalization은 여러 변수 중 관심 없는 변수를 적분(또는 합산)해서 없애는 것
→ 여기서 는 "관심 없는 변수"이고, 이를 주변화(marginalization) 하면 x에만 집중할 수 있다.
LFB는 존재하는 단백질과 유전자 언어 모델에 적용되며, 재학습이 필요 없고 계산 비용 또한 비교적 낮다. 대규모 deep mutational scans 및 임상적 벤치마크에서 평가한 결과, LFB는 결과적으로 모델 계열과 크기에서 예측 성능을 향상시켰다. 특히( Notably ), 큰 단백질 언어 모델에서 관찰되던 성능 정체(performance plateau)를 뒤집어, LFB와 결합했을 때 가장 큰 모델이 가장 정확한 결과를 보여주었다. 이러한 결과는 변이 효과 예측에서 큰 서열 모델의 잠재력을 완전히 실현하려면, 계통학적 구조와 샘플링 편향을 반드시 고려해야 함을 시사한다.
* These results suggest that accounting for ~
Results
🔹 1. 기본 목적: 변이의 효과 예측 (Variant effect prediction)
고전 방식:
변이 전후 서열의 log-likelihood 차이를 계산함:
σLL=logpθ(xalt)−logpθ(x)\sigma_{LL} = \log p_\theta(x^{\text{alt}}) - \log p_\theta(x)
- 여기서 xaltx^{\text{alt}}: 변이된 서열
- xx: 원래 서열
- σLL\sigma_{LL}: 변이의 영향(Δf)의 추정치로 사용되지만 노이즈가 큼
🔹 2. LFB: 노이즈를 줄이는 전략
아이디어:
유사한 선택압(selective pressure)을 받은 관련 서열들에 동일한 변이를 가해보고, log-likelihood 차이를 평균냄.
σLFB=1n∑i[logpθ(xialt)−logpθ(xiref)]\sigma_{LFB} = \frac{1}{n} \sum_i \left[ \log p_\theta(x_i^{\text{alt}}) - \log p_\theta(x_i^{\text{ref}}) \right]
- xirefx_i^{\text{ref}}: 관련 서열 xix_i에 기준(reference) 알렐을 넣은 형태
- xialtx_i^{\text{alt}}: 여기에 변이 알렐을 넣은 형태
- 여러 유사 서열에 대해 평균을 내므로, 노이즈가 감소됨
🔹 3. OU 과정과 연결
논문에서는 OU 모델을 사용해 자연 서열들이 어떻게 진화했는가를 수학적으로 설명합니다.
(1) Fitness function (적합도 함수):
서열이 평균 μ\mu에서 멀어질수록 적합도는 감소:
f(xt)=−α2(μ−xt)2f(x_t) = -\frac{\alpha}{2} (\mu - x_t)^2
- μ\mu: 선택압에 의해 선호되는 평균값 (예: 최적 표현형)
- α\alpha: 선택압의 강도 (강할수록 평균으로 빨리 되돌아옴)
(2) OU 진화 모델:
dxt=α(μ−xt)dt+sdWtdx_t = \alpha(\mu - x_t)dt + s dW_t
- 첫 항: 평균으로 되돌아가는 선택압
- 두 번째 항: 무작위성 (genetic drift), ss는 그 강도
(3) 시간 t 이후 서열은 어떻게 분포하나?
OU 과정이 안정화된 상태(stationary distribution)라면,
각 서열 xix_i는 다음처럼 분포:
xi=μ+εi,with εi∼N(0,s22α)x_i = \mu + \varepsilon_i, \quad \text{with } \varepsilon_i \sim \mathcal{N}(0, \frac{s^2}{2\alpha})
→ 즉, 모든 자연 서열은 평균 μ\mu를 중심으로 퍼져 있음
🔹 4. LFB의 통계적 정당화
논문은 다음을 가정합니다:
- 각 관련 서열 xix_i는 동일한 적합도 풍경을 공유 (같은 μ\mu)
- 따라서 변이로 인한 likelihood 변화는 독립이고 평균은 같음
- 그러므로 여러 noisy 추정치를 평균내면 분산이 감소함:
Var(σLFB)=1nVar(σLL)=2δ2s2αn\text{Var}(\sigma_{LFB}) = \frac{1}{n} \text{Var}(\sigma_{LL}) = \frac{2\delta^2 s^2}{\alpha n}
→ 결국, LFB는 unbiased하면서도 더 분산이 작은 추정치를 제공한다는 수학적 근거!
🔹 5. 그림 해석 (Figure 1)
왼쪽:
- 기본 log-likelihood 차이 σLL\sigma_{LL}는 노이즈를 포함한 Δf 추정치
- 즉, 실제 적합도 변화 Δf 근처에 있지만 잡음 ε\varepsilon이 있음
오른쪽:
- 여러 종(혹은 서열)에서 동일한 변이를 적용
- 각 σi\sigma_i는 noisy하지만 평균을 내면 더 정밀한 Δf 추정 가능
✅ 요약
항목 의미σLL\sigma_{LL} | 단일 서열에서의 변이 효과 추정 (노이즈 큼) |
σLFB\sigma_{LFB} | 여러 유사 서열 평균으로 노이즈 줄인 추정 |
OU 모델 | 선택압(회귀) + 드리프트(랜덤성)를 동시에 반영 |
μ\mu | 선택압에 의해 선호되는 평균 적합도 서열 |
이점 | σLFB\sigma_{LFB}는 σLL\sigma_{LL}보다 분산이 작고 더 안정적 |
필요하시면 Python으로 OU 샘플 시뮬레이션, LFB 구현 예시도 만들어 드릴 수 있습니다!