Few shot learning for phenotype-driven diagnosis
of patients with rare genetic diseases
https://www.nature.com/articles/s41746-025-01749-1
2025, npj digital medicine, 6 citation
내 관심분야, 관심 랩 논문이다. 어떻게 환자군 데이터를 전처리했는지,
희귀 질환이라는 데이터가 부족한 도메인에서 딥러닝 모델을 어떤 방식으로 해결했는지 확인하기 위함.
미국에는 3,500명 이하의 환자에게 영향을 미치는 약 7,000종의 희귀질환이 존재한다. 이러한 질환들에 대한 임상의의 제한된 경험과 임상 표현형의 이질성으로 인해, 진단을 받고자 하는 환자의 약 70%는 여전히 진단에 이르지 못하고 있다. 딥러닝은 흔한 질환의 진단을 보조하는 데에서 이미 높은 성과를 보여 왔으나, 기존 접근법들은 각 질환마다 수천 명의 진단 환자로 구성된 대규모 라벨링 데이터셋을 필요로 한다.
본 연구에서는 SHEPHERD를 제안한다. SHEPHERD는 다면적 희귀질환 진단을 수행하기 위한 few-shot learning 기반 접근법이다. 우리는 질병 원인 유전자 발굴, 유사 환자 탐색, 새로운 질병 표현형의 특성화 등 다양한 진단 작업에서 SHEPHERD의 유효성을 검증하였다. 이를 위해 Undiagnosed Diseases Network(N=465), MyGene2(N=146), Deciphering Developmental Disorders 연구(N=1,431)의 실제 환자 코호트를 사용하였다. SHEPHERD는 희귀질환 진단을 가속화할 수 있는 지식 기반 딥러닝 모델의 가능성을 제시한다.
1. Problem
- 기존의 딥러닝 모델들은 " 대규모 라벨링 데이터셋"이 필요
- 그러나 희귀질화는 데이터 확보가 어려움
2. Idea

a. UDN 진단 과정과 SHEPHERD의 활용 위치
- 환자는 여러 차례의 진단 실패 이후 UDN에 의뢰되며, 이후 철저한 임상 평가와 유전체 시퀀싱을 받는다.
- 환자의 사례는 반복적 분석(iterative process)을 통해 증상을 설명할 가능성이 있는 후보 유전자를 도출한다.
- SHEPHERD는 전체 진단 과정 어디에서든 활용될 수 있다.
- 임상 평가 이후: 유사 환자 검색
- 시퀀싱 분석 이후: 유력 후보 유전자 식별
- 사례 검토 이후: 후보 유전자 추가 우선순위화, 환자 질병 특성화, 표현형·유전체 기반 일치 환자 검색을 통한 후보 유전자 검증
b. SHEPHERD 모델 개요
- 입력: 환자의 HPO 기반 표현형(term) 세트.
- 외부 희귀질환 지식 그래프(phenotype–gene–disease 관계)를 활용하여 다면적 희귀질환 진단을 수행한다.
- 선택적으로 다음을 함께 사용할 수 있다:
- 후보 유전자 리스트 (variant-filtered 또는 expert-curated)
- 외부 환자 코호트
- 적용 가능한 작업 예:
- 원인 유전자 탐색(causal gene discovery)
- 유사 환자 식별(patients-like-me identification)
c. 표현형(HPO) 및 후보 유전자 수
d. 표현형·유전자·질병의 환자 간 중복 정도
e–h. 인구학적 및 임상적 분포
3. Methods

a–b. 두 단계 학습 과정(two-step training process)
- 1단계(pretraining)
- 모델은 지식 그래프(KG)에 포함된 생의학적 지식을 학습하도록 사전학습된다.
- 목표: 유전자–표현형–질병 관계를 구조적으로 반영하는 임베딩 생성.
- 2단계(finetuning on diagnosis task)
- 사전학습된 모델을 희귀질환 진단 과업에 적용한다.
- 환자의 표현형 정보가 지식 그래프 상에 중첩(overlay)되며,
- 환자 표현형,
- 후보 유전자,
- 후보 질병,
- 다른 환자
각각에 대한 임베딩이 생성된다.
- 학습 목표(loss):
- 환자 임베딩이 원인 유전자/질병 또는 동일 원인 유전자를 가진 다른 환자들에 가깝도록,
- 그리고 다른 질병/유전자/환자와는 멀어지도록 최적화.
c. 학습 데이터 구성 및 활용 방식
- SHEPHERD는 **대규모 시뮬레이션 환자 코호트(핑크)**로 먼저 학습된다.
- 필요 시 **실제 환자 데이터(블루)**로 추가 학습할 수 있다.
- 모델 평가 시에는 **독립적인 실제 환자 코호트(그린)**로 검증한다.
- 또는 추가 학습 없이(real-world finetuning 없이)
시뮬레이션 기반 모델을 그대로 실제 환자 데이터에 적용하는 것도 가능하다.
d. 실제 환자 데이터 코호트(3종)
SHEPHERD의 실제 평가(evaluation)에는 다음 세 코호트가 사용된다.
- UDN (Undiagnosed Diseases Network): 465명
- MyGene2: 146명
- DDD (Deciphering Developmental Disorders): 1,431명
지식 그래프(KG)는 단순화를 위해
- gene = 원(circle),
- phenotype = 사각형(square),
- disease = 오각형(pentagon)
으로 표현된다.
성능을 높이면, 데이터가 너무 뭉개질 수도 잇는데(overfit), 어떻게 그 적절한 generalized 모델로 만들었는지..
우선 challenge 한 부분을 해결하고자 나온거라서 그런가 related work은 전혀 언급하지 않고 오로지 해석에 집중한...
핵심은 임베딩공간을 잘 만드는 것. 유사한 임베딩간의 거리가 좁혀지도록 학습.
논문에서는 phenotype 과 causal gene 간의 direct 하게 연결되어있지않있기 때문에 어려운 테스크인데 , 우리가 잘 해냈다.
KG 정보 뿐만아니라 patient 에 대해서도 잘 학습이되었다. 증명을 하고 있는데
-> rare disease 자체가 원래 대부분 causal gene 이 1개이고 원인이 유전적으로 명확하기 때문에 애초에 쉬운 disease case 엿을 수 있다.
-> 따라서 대다수 complex diseaes 에 대해서는 잘 동작하지 않을 것이다.
해석을 정말 잘하긴했지만 Enformer 메소랑 제일 간ㄷ나한 shortest graph distance 모델에서도 이미 준수한 성능을 보이고 있다.
성능면에서는 완전 SOTA 모델에 도달하지 못한 것으로 보인다.