Few shot learning for phenotype-driven diagnosis
of patients with rare genetic diseases

https://www.nature.com/articles/s41746-025-01749-1

2025, npj digital medicine, 6 citation

내 관심분야, 관심 랩 논문이다. 어떻게 환자군 데이터를 전처리했는지,
희귀 질환이라는 데이터가 부족한 도메인에서 딥러닝 모델을 어떤 방식으로 해결했는지 확인하기 위함.

미국에는 3,500명 이하의 환자에게 영향을 미치는 약 7,000종의 희귀질환이 존재한다. 이러한 질환들에 대한 임상의의 제한된 경험과 임상 표현형의 이질성으로 인해, 진단을 받고자 하는 환자의 약 70%는 여전히 진단에 이르지 못하고 있다. 딥러닝은 흔한 질환의 진단을 보조하는 데에서 이미 높은 성과를 보여 왔으나, 기존 접근법들은 각 질환마다 수천 명의 진단 환자로 구성된 대규모 라벨링 데이터셋을 필요로 한다.
본 연구에서는 SHEPHERD를 제안한다. SHEPHERD는 다면적 희귀질환 진단을 수행하기 위한 few-shot learning 기반 접근법이다. 우리는 질병 원인 유전자 발굴, 유사 환자 탐색, 새로운 질병 표현형의 특성화 등 다양한 진단 작업에서 SHEPHERD의 유효성을 검증하였다. 이를 위해 Undiagnosed Diseases Network(N=465), MyGene2(N=146), Deciphering Developmental Disorders 연구(N=1,431)의 실제 환자 코호트를 사용하였다. SHEPHERD는 희귀질환 진단을 가속화할 수 있는 지식 기반 딥러닝 모델의 가능성을 제시한다.

1. Problem

기존의 딥러닝 모델들은 " 대규모 라벨링 데이터셋"이 필요
그러나 희귀질화는 데이터 확보가 어려움

2. Idea

a. UDN 진단 과정과 SHEPHERD의 활용 위치

환자는 여러 차례의 진단 실패 이후 UDN에 의뢰되며, 이후 철저한 임상 평가와 유전체 시퀀싱을 받는다.
환자의 사례는 반복적 분석(iterative process)을 통해 증상을 설명할 가능성이 있는 후보 유전자를 도출한다.
SHEPHERD는 전체 진단 과정 어디에서든 활용될 수 있다.
- 임상 평가 이후: 유사 환자 검색
- 시퀀싱 분석 이후: 유력 후보 유전자 식별
- 사례 검토 이후: 후보 유전자 추가 우선순위화, 환자 질병 특성화, 표현형·유전체 기반 일치 환자 검색을 통한 후보 유전자 검증

b. SHEPHERD 모델 개요

입력: 환자의 HPO 기반 표현형(term) 세트.
외부 희귀질환 지식 그래프(phenotype–gene–disease 관계)를 활용하여 다면적 희귀질환 진단을 수행한다.
선택적으로 다음을 함께 사용할 수 있다:
- 후보 유전자 리스트 (variant-filtered 또는 expert-curated)
- 외부 환자 코호트
적용 가능한 작업 예:
- 원인 유전자 탐색(causal gene discovery)
- 유사 환자 식별(patients-like-me identification)

c. 표현형(HPO) 및 후보 유전자 수

d. 표현형·유전자·질병의 환자 간 중복 정도

e–h. 인구학적 및 임상적 분포

3. Methods

a–b. 두 단계 학습 과정(two-step training process)

1단계(pretraining)
- 모델은 지식 그래프(KG)에 포함된 생의학적 지식을 학습하도록 사전학습된다.
- 목표: 유전자–표현형–질병 관계를 구조적으로 반영하는 임베딩 생성.
2단계(finetuning on diagnosis task)
- 사전학습된 모델을 희귀질환 진단 과업에 적용한다.
- 환자의 표현형 정보가 지식 그래프 상에 중첩(overlay)되며,
  - 환자 표현형,
  - 후보 유전자,
  - 후보 질병,
  - 다른 환자
    각각에 대한 임베딩이 생성된다.
- 학습 목표(loss):
  - 환자 임베딩이 원인 유전자/질병 또는 동일 원인 유전자를 가진 다른 환자들에 가깝도록,
  - 그리고 다른 질병/유전자/환자와는 멀어지도록 최적화.

c. 학습 데이터 구성 및 활용 방식

SHEPHERD는 **대규모 시뮬레이션 환자 코호트(핑크)**로 먼저 학습된다.
필요 시 **실제 환자 데이터(블루)**로 추가 학습할 수 있다.
모델 평가 시에는 **독립적인 실제 환자 코호트(그린)**로 검증한다.
또는 추가 학습 없이(real-world finetuning 없이)
시뮬레이션 기반 모델을 그대로 실제 환자 데이터에 적용하는 것도 가능하다.

d. 실제 환자 데이터 코호트(3종)

SHEPHERD의 실제 평가(evaluation)에는 다음 세 코호트가 사용된다.

UDN (Undiagnosed Diseases Network): 465명
MyGene2: 146명
DDD (Deciphering Developmental Disorders): 1,431명

지식 그래프(KG)는 단순화를 위해

gene = 원(circle),
phenotype = 사각형(square),
disease = 오각형(pentagon)
으로 표현된다.

성능을 높이면, 데이터가 너무 뭉개질 수도 잇는데(overfit), 어떻게 그 적절한 generalized 모델로 만들었는지..

우선 challenge 한 부분을 해결하고자 나온거라서 그런가 related work은 전혀 언급하지 않고 오로지 해석에 집중한...

핵심은 임베딩공간을 잘 만드는 것. 유사한 임베딩간의 거리가 좁혀지도록 학습.

논문에서는 phenotype 과 causal gene 간의 direct 하게 연결되어있지않있기 때문에 어려운 테스크인데 , 우리가 잘 해냈다.
KG 정보 뿐만아니라 patient 에 대해서도 잘 학습이되었다. 증명을 하고 있는데

-> rare disease 자체가 원래 대부분 causal gene 이 1개이고 원인이 유전적으로 명확하기 때문에 애초에 쉬운 disease case 엿을 수 있다.

-> 따라서 대다수 complex diseaes 에 대해서는 잘 동작하지 않을 것이다.

해석을 정말 잘하긴했지만 Enformer 메소랑 제일 간ㄷ나한 shortest graph distance 모델에서도 이미 준수한 성능을 보이고 있다.

성능면에서는 완전 SOTA 모델에 도달하지 못한 것으로 보인다.

저작자표시 (새창열림)

'Paper' 카테고리의 다른 글

간단리뷰 Day19. Emerging drug interaction prediction enabled by a flow-based graph neural network with biomedical network (0)	2025.12.18
간단리뷰 Day 18. K-Paths: Reasoning over Graph Paths for Drug Repurposing and Drug Interaction Prediction (0)	2025.12.18
간단리뷰 Day16. Engineering E. coli strains using antibiotic-resistance-gene-free plasmids (0)	2025.11.23
Dnabert-2: Efficient foundation model and benchmark for multi-species genom (0)	2025.11.20
간단리뷰 Day15. Pharmacogenomics polygenic risk score for drug response prediction using PRS-PGx methods (evaluation 좀더 볼 것 ) (0)	2025.11.11

Bioinfomatics

간단리뷰 Day17. Few shot learning for phenotype-driven diagnosis of patients with rare genetic diseases

Few shot learning for phenotype-driven diagnosis
of patients with rare genetic diseases

1. Problem

2. Idea

a. UDN 진단 과정과 SHEPHERD의 활용 위치

b. SHEPHERD 모델 개요

3. Methods

a–b. 두 단계 학습 과정(two-step training process)

c. 학습 데이터 구성 및 활용 방식

d. 실제 환자 데이터 코호트(3종)

'Paper' 카테고리의 다른 글

티스토리툴바

간단리뷰 Day17. Few shot learning for phenotype-driven diagnosis of patients with rare genetic diseases

Few shot learning for phenotype-driven diagnosis of patients with rare genetic diseases

1. Problem

2. Idea

a. UDN 진단 과정과 SHEPHERD의 활용 위치

b. SHEPHERD 모델 개요

3. Methods

a–b. 두 단계 학습 과정(two-step training process)

c. 학습 데이터 구성 및 활용 방식

d. 실제 환자 데이터 코호트(3종)

'Paper' 카테고리의 다른 글

'Paper' Related Articles

티스토리툴바

Few shot learning for phenotype-driven diagnosis
of patients with rare genetic diseases