본문 바로가기

Paper

간단리뷰 Day 24. Simulation of undiagnosed patients with novel genetic conditions

Simulation of undiagnosed patients with novel genetic conditions

https://www.nature.com/articles/s41467-023-41980-6

2023, Nature communications,13 citation

SHEPHERD 에서 사용한 환자 시뮬레이션 데이터한 방식으로 성능이 이미 증명된바가 있다고하여.
합리적인 방법과 결과인지, 활용가능성을 확인해보기 위해 읽게 됨. 
+ 알고보니 SHEPHERD 1저자의 이전 연구였으며, 두 논문다 하버드 의과대 생의학정보학과내 랩들의 공동연구였음.

 

희귀 멘델 유전 질환은 진단상의 주요 난제이며, 전 세계적으로 3억~4억 명의 환자에게 영향을 미치고 있다. 많은 자동화 도구들이 유전 질환 의심 환자의 원인 유전자를 밝혀내는 것을 목표로 하지만, 아직 발표되지 않은 질환까지 포함하는 포괄적인 벤치마크 데이터셋이 부족하여 이러한 도구들을 평가하는 데 한계가 있었다.
이에 본 연구에서는 이러한 결함을 해결하기 위해 실제 임상 데이터를 시뮬레이션하는 계산 파이프라인을 제시한다. 우리의 프레임워크는 복잡한 표현형과 분석이 까다로운(Challenging) 후보 유전자를 결합하여 시뮬레이션하며, 새로운 유전적 상태를 가진 환자 데이터를 생성한다. 우리는 시뮬레이션된 환자들이 UDN(미진단 질환 네트워크)의 실제 환자들과 유사함을 입증하였으며, 시뮬레이션 코호트를 통해 흔히 쓰이는 유전자 우선순위 지정 방법들을 평가했습니다.
이러한 방법들은 이미 알려진 유전자-질환 연관성은 잘 찾아내었지만(recover), 새로운 유전 질환을 가진 환자를 진단하는 데 있어서는 성능이 낮았다. 우리가 공개하는 데이터셋과 코드는 의학 유전학 연구자들이 진단 과정을 돕는 도구를 평가하고 비교하며 개선하는 데 활용될 수 있다.

1. Problem

  • 발표되지 않은 질환까지 포함하는 포괄적인 벤치마크 데이터셋의 부족

2. Related Work

Deciphering Developmental Disorders project

: 특정 희귀 질환 환자 집단에 대한 유용한 벤치마크를 제공. DUA(접근 권한)필요 및 진단 범위가 제한적

3. Idea

1. Orphanet에 등록된 유전 질환에서 정의

2. 불확실성 모델링을 위한 3가지 전략:

  1. 환자의 증상이 부분적으로만 관찰되는 상황을 본뜬 표현형 탈락(phenotype dropout),
  2. 구체적인 증상을 일반적인 용어로 대체하는 표현형 모호화(phenotype obfuscation),
  3. 그리고 의료 보험 청구 데이터베이스를 활용해 동일 연령대 환자의 유병률에 비례하여 관련 없는 증상이나 동반 질환을 추가하는 표현형 노이즈(phenotype noise)

3. 교란 유전자 생성하는 6가지 모듈:

  • 실제 희귀 질환 진단 과정에서 착안
  • 강력하지만 결과적으로는 원인이 아닌 교란 후보 유전자(distractor genes)를 생성
  • 프레임워크(아래 그림 2b):
    • 4개 모듈: 교란 유전자와 환자의 원인 유전자 간에 연관된 표현형이 얼마나 겹치는지(또는 겹치지 않는지)에 따라 정의됩니다.
    • 나머지 2개 모듈: 실제 원인 유전자와 유사한 조직 발현 패턴을 보이는 특성, 또는 계산 파이프라인에서 단순히 잘못된 우선순위가 자주 매겨지는 특성에 의해 정의됩니다.

 

Fig. 2: Simulation process generates patients with multiple phenotype terms and candidate genes.

4. Materials & Methods

  • 학습데이터
  • 평가 데이터
    • 실제 환자: Orphanet에 주석으로 표시된 질병으로 진단받은 121명의 실제 환자(미진단 질환 네트워크(UDN)) 코호트를 구성,
      -> 해당 질병과 일치하는 2,420명의 시뮬레이션 환자를 생성함.
    • 시뮬레이션 환자: 2,134개의 고유한 멘델 유전 질환 각각에 대해 20명의 실제 환자를 시뮬레이션
      -> 총 42,680명의 환자와 2,401개의 고유한 원인 유전자를 나타냄.

5. Evaluation & Findings

figure3. 

a-b. 환자당 후보 유전자 수(평균 μ 13.13 대 13.94)와 환자당 양성 표현형 용어 수 (평균 24.08 대 21.57)가 유사

c. 실제 환자 1명당 시뮬레이션 환자 20명에 대한 UMAP, 실제 환자와 시뮬레이션 환자들과 유사하게 군집을 이룸.
-> x,y축 값을 봐야 알 수 있는 거아님? 정답이 아닌 질병과의 비교평가(distance 라던가)도 있어야 더 신뢰가 있을듯. 

d. 실제 환자의 표현형 용어와의 자카드 유사도(평균 Jaccard 유사도 0.952 대 0.930).P  = 7.4e-81, 윌콕슨 단측 검정)에 따른 순위 비교
(그림을 보면 실제 환자 데이터의 상위 15개 표현형이 시뮬레이션 데이터의 표현형의 절반만 동일하다는 것인데
무작위 보다 높다고해서 이걸 유의하다고 말할 수 있는지에 대한 의문)

e. 시뮬레이션이 생성한 가짜 유전자들이 실제 임상 데이터만큼이나 "악랄하게" 진짜와 닮아 있음을 보여줌.

 

figure5. 불확실성 3 가지 전략 + 6개 모듈에 대한 실험 결과들

 

(오) Fig. 3: Simulated patients mimic real-world patients. (왼) Fig. 5: Pipeline components increase the difficulty of causal gene identification in simulated patients.

 

6. Take away

  • disease id(orphanet)를 query하면 positive phenotypes + candidated genes 목록을 생성함.

  • 유전자의 우선순위화는 Phenolyzer - Phrank를 이용함.