Paper

Integrating biomedical research and electronic health records to create knowledge-based biologically meaningful machine-readable embeddings

한거루 2024. 8. 3. 01:48

2019 year, nature , 72 citation (12.121 impact factor)

https://www.nature.com/articles/s41467-019-11069-0

 

Abstract
전자 건강 기록(EHR)과 생의학 연구 데이터를 통합하여 생물학적으로 의미 있는 기계 판독형 임베딩을 생성하는 방법을 제안합니다. 연구팀은 UCSF의 80만 명 이상의 환자 데이터와 29개의 공개 데이터베이스를 통합하여, 기계 학습 알고리즘을 사용해 EHR의 코드를 SPOKE라는 지식 네트워크에 매핑하는 Propagated SPOKE Entry Vectors(PSEVs)를 생성했습니다. 이 방법은 정밀 의학을 위한 중요한 진전을 나타냅니다.

 

*EHR : 환자의 건강 정보와 치료 기록을 디지털 형식으로 저장한 것

이 논문에서 해당 정보는 SPOKE의 노드와는 Gene, Disease, Sytome, Side effect, Compound 와 연결된다.

  • 진단 코드 (예: ICD9, ICD10)
  • 약물 처방 코드 (예: RxNorm)
  • 실험실 검사 코드 (예: LOINC)

*Scalable Precision Medicine Oriented Knowledge Engine(SPOKE)은 이종 데이터베이스를 통합한 대규모 지식 네트워크

 

 

 

Introduction

의료 과학에서 데이터 변환 속도가 느려 정밀 의학의 발전에 장애물이 되고 있습니다. 다양한 데이터 소스를 단일 플랫폼으로 통합하여 새로운 지식을 발견하려는 시도가 있습니다. 

1. EHR + DNA(eMERGE 네트워크)

2. EHR + 유전자 발현량

3. EHR + GWAS/SSTARGEO/ChEMBL/LINCS/GeneOntology 와 같은 29개 DB(SPKE)

(https://elifesciences.org/articles/26726)

(https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1004259)

 

EHR의 임상적 특징을 SPOKE에 임베딩하는 방법을 설명합니다.

(즉 헤테로한 정보를 어떻게 임베딩했냐를 설명)

 

1. Disease  Gene , Disease–Disease, Compound  Gene , Compound  Compound 와 같이 의도적으로 숨겨진 네트워크 관계를 복구

2. SPOKE에서 SideEffect  Anatomy 노드를 연결하는 의도적으로 삭제된 에지의 올바른 추론 도 시연

 

Methods

소제목입니다.

 

PageRank의 수정된 버전을 활용하여 EHR을 SPOKE 지식 네트워크에 임베딩

*PageRank(http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf)

 

PSEV (Propagated SPOKE Entry Vectors)

Propagated SPOKE Entry Vectors(PSEVs)는 EHR 코드를 SPOKE 네트워크에 매핑하여 생성되는 벡터입니다.

(매핑되는 노드 타입은 Gene, Disease, Sytome, Side effect, Compound)

PSEV는 기계 학습 알고리즘을 사용하여 각 EHR 코드가 SPOKE의 어떤 노드와 중요한 관계가 있는지를 나타냅니다. 

 

  1. 데이터 수집: UCSF의 EHR 데이터를 수집하여 SPOKE와 연결 가능한 항목들을 식별합니다.
  2. 알고리즘 적용: 수정된 PageRank 알고리즘을 사용하여 EHR 데이터를 SPOKE 네트워크에 전파합니다.
  3. 벡터 생성: EHR 코드마다 SPOKE의 노드에 대한 중요도를 나타내는 벡터(PSEV)를 생성합니다.

Embedding EHR concepts in a knowledge network.

Random walk with restart 알고리즘은 connect matrix를 업데이트하는 방식이라면

 

 

Results

 

PSEVs는 다양한 질병-유전자, 질병-질병 관계를 정확하게 복원했으며, 새로운 생물학적으로 의미 있는 관계를 학습할 수 있음을 보여주었습니다. 특히, 비만 관련 질병과 유전자를 식별하는 데 성공했으며, 이는 BMI와 관련된 생물학적 메커니즘을 더 깊이 이해하는 데 기여했습니다.

 

Embedding EHR concepts in a knowledge network

EHR 개념을 지식 네트워크인 SPOKE에 임베딩하기 위해 PageRank 알고리즘의 수정 버전을 사용했습니다. PSEV(Propagated SPOKE Entry Vectors)은 특정 환자 집단에 대해 생성된 벡터로, 각 요소는 SPOKE의 노드를 나타냅니다. UCSF 의료 센터의 816,504명의 환자로부터 비식별화된 구조화된 EHR 데이터를 얻어 292,753명의 환자 데이터로 분석을 진행했습니다. 이 데이터를 통해 EHR 개념을 SPOKE의 노드에 직접 연결할 수 있는 SPOKE Entry Points(SEPs)를 식별하고, 3,233개의 PSEV를 생성했습니다​​.

Benchmarking PSEVs with BMI

BMI is typically used to classify patients into four standard classes (underweight, normal, overweight, and obese).
We imagine SPOKE as a set of interconnected water pipes and the SEPs as input valves.
the percentage of obese patients that also have type 2 diabetes in their EHRs will determine how much water is allowed to flow through the type 2 diabetes SEP valve (a measure of its importance).
 

BMI(체질량 지수)를 기준으로 환자 군집을 정의하여 PSEV를 생성했습니다. BMI는 일반적으로 저체중, 정상체중, 과체중, 비만의 네 가지 표준 클래스로 분류됩니다. UCSF 환자 인구의 BMI 분포를 분석하여 네 가지 군집을 만들었고, 이는 표준 BMI 클래스와 잘 일치했습니다. PageRank 알고리즘을 사용하여 각 BMI 군집에 대해 PSEV를 생성하고, 이 벡터들이 생물학적으로 의미 있는 정보를 캡처할 수 있음을 입증했습니다​​.

 

비유적으로 설명하자면, SPOKE는 서로 연결된 수도관처럼 다양한 데이터와 노드를 연결하는 역할을 합니다. SEP는 입력 밸브처럼 특정 환자 데이터의 시작점을 나타냅니다. 비만 환자 관련 SEP 밸브를 통해 많은 물이 흐를 때, 이는 비만 환자와 관련 높은 질환인 제2형 당뇨병 SEP와 연결될 것입니다. 물의 흐름은 SEP의 중요도를 나타내며, PSEV는 EHR 데이터를 SPOKE 네트워크에 매핑하여 환자 집단의 중요한 정보를 실제로 몰라도 반영할 수 있다.

 

Identifying phenotypic traits in PSEVs

각 BMI 군집에 대해 생성된 PSEV를 분석하여, 질병 요소의 중요도를 비교했습니다. 비만 군집에서 가장 중요한 질병으로 식별된 것은 비만, 고혈압, 제2형 당뇨병, 대사 증후군 X였습니다. 이러한 질병들은 평균 BMI와 높은 상관관계를 보였으며, BMI가 높은 군집에서 이러한 질병들이 더 중요한 요소로 나타났습니다​​.

.

PSEVs reveal genotypic traits and biological mechanisms

PSEV가 유전적 특성과 생물학적 메커니즘을 어떻게 드러낼 수 있는지 테스트하기 위해 평균 BMI와 유전자 순위 간의 선형 회귀를 계산했습니다. 예를 들어, BMI와 양의 상관관계를 보이는 유전자로 FTO가 있으며, 이는 비만과 관련이 있습니다. 비만 군집의 PSEV는 BMI와 관련된 유전자들로 유의미하게 풍부하게 나타났습니다. 이러한 결과는 PSEV가 새로운 생물학적으로 의미 있는 관계를 학습할 수 있음을 보여줍니다​​.

 

Figure 2는 PSEV 결과의 유효성을 확인하기 위함. BMI와 관련된 질병과의 관계를 얼마나 잘 반영하는지를 보여주기 위함.

 

Figure 2 (a). 비만 코호트에서 상위 질병(비만, 고혈압, 제2형 당뇨병 및 대사 증후군 X)을 확인했으며, 이 질병들은 실제로 BMI와 강한 양의 상관관계를 보였습니다. 이는 PSEV가 의미 있는 정보를 캡처함을 보여줍니다. 다른 BMI 군집에서도 이러한 질병들의 순위를 확인했을 때, BMI와 질병 사이의 경향성이 나타났습니다. 즉, BMI가 증가할수록 비만, 고혈압, 제2형 당뇨병 및 대사 증후군 X의 순위가 높아졌습니다.

Figure 2 (b). BMI와 유전자 순위 간의 상관관계를 분석하여 PSEV가 유전형 수준에서 의미 있는 관계를 학습할 수 있음을 확인함. 평균 BMI와 유전자 순위 간의 선형 회귀 분석을 수행. 예를 들어, FTO 유전자는 BMI와 양의 상관관계를 보임.

 

Figure 2 (c). GWAS 카탈로그에서 추출한 BMI 증가와 관련된 유전자(365개)와 PSEVs의 상위 365개 유전자를 비교.비만 코호트의 PSEV는 BMI와 관련된 유전자가 유의미하게 많이 포함(p = 2.19E-10, 이항 검정). 과체중 코호트의 PSEV도 유의미한 결과를 보였으나, 저체중 및 정상 BMI 코호트는 유의미한 결과를 보이지 않음.즉 PSEV는일관된 결과를 보여주고 있다.

 

PSEVs preserve original SPOKE edges

  • 목적: 비만 BMI PSEV가 SPOKE의 기존 유전자 발현 엣지를 유지하는지 확인한 후, 다른 개념에서도 이 방법을 고속으로 적용 가능성을 확인.
  • 방법:
    • EHR의 진단, 약물 주문, 실험실 테이블에서 3,233개 환자 코호트를 추출하여 각 코호트에 대한 PSEVs를 생성.
    • 각 PSEV에서 상위 순위 노드들을 분석.
  • 결과:
    • 특정 PSEV의 상위 순위 노드 대부분이 SPOKE의 첫 번째 이웃 관계를 유지.
    • 예: 다발성 경화증(MS) 질병 노드는 SPOKE에서 39개의 해부학 노드와 연결되어 있으며, MS PSEV의 상위 39개 해부학 요소와 100% 일치.
    • 증상 노드의 경우도 80%의 첫 번째 이웃 관계가 유지.
    • 또한, SPOKE에서 직접 연결되지 않은 노드들에서도 새로운 관계를 우선시함.
    • 예: 인터루킨-7에 대한 반응과 관련된 여러 노드가 상위 생물학적 과정 노드에 포함됨. 이는 기존 SPOKE나 EHR 데이터에 직접적이지 않지만 PSEV 생성 중 학습된 관계임.
  • 결론 :
    • PSEVs의 역할: EHR 개념을 다양한 차원에서 설명하고 복잡한 생명체의 계층적 조직을 충실히 나타냄.
    • 신뢰성 검증: EHR을 지식 네트워크에 임베딩한 벡터가 생물학적으로 의미 있는지를 검증.
    • 응용 가능성: PSEVs가 질병-질병, 화합물-화합물 유사성, 약물-단백질 표적, 부작용-해부학과 같은 다양한 엣지 유형에서도 학습 능력을 보임.

그림 (A)

  • 내용: PSEV 벡터에서 SPOKE 노드의 순위 분포를 나타냅니다.
  • 파란색 (SPOKE Connections): PSEV의 상위 순위 노드 중에서 SPOKE 네트워크에서 첫 번째 이웃 관계에 있는 노드.
  • 빨간색 (Unknown Connections): PSEV의 상위 순위 노드 중에서 SPOKE 네트워크에서 첫 번째 이웃 관계가 아닌 노드.
  • 해석: 파란색 막대가 더 높은 확률 밀도를 보이며, 이는 PSEV가 SPOKE 네트워크의 기존 연결을 잘 유지하고 있음을 의미합니다. 빨간색 막대는 새로운, 기존 SPOKE 연결에 포함되지 않은 노드를 나타내며, 이는 PSEV가 새로운 생물학적 의미 있는 관계를 학습할 수 있음을 보여줍니다.

그림 (B)

  • 내용: 다발성 경화증(MS)의 첫 번째 이웃 노드와 PSEV에서의 순위를 나타냅니다.
  • 파란색 엣지: MS 질병 노드와 SPOKE에서 첫 번째 이웃 관계를 가지며, PSEV에서도 상위 순위에 있는 노드.
  • 빨간색 엣지: MS 질병 노드와 SPOKE에서 첫 번째 이웃 관계를 가지지만, PSEV에서는 상위 순위에 있지 않은 노드.
  • 해석: 파란색 엣지가 많다는 것은 MS와 직접 연결된 노드들이 PSEV에서도 높은 중요도를 가지며 유지된다는 것을 의미합니다. 반면 빨간색 엣지는 MS와 직접 연결되어 있지만, PSEV에서 상대적으로 낮은 순위를 가지는 노드입니다.

(파란색 엣지가 많다는 이야기를 하던데, 사실 그림상으로는 그렇게 두드러져보이지않다.

그림 (C)

  • 내용: MS 질병 노드와 직접 연결되지 않은 PSEV에서 상위 10위에 랭크된 노드들.
  • 점선 엣지: MS 질병 노드와 SPOKE 네트워크에서 직접적으로 연결되지 않은 노드들.
  • 해석: 이는 PSEV가 SPOKE 네트워크의 기존 연결을 넘어 새로운, 생물학적으로 중요한 노드들을 강조할 수 있음을 보여줍니다. 예를 들어, 인터루킨-7 신호전달(IL-7 signaling) 경로와 같은 생물학적 과정이 상위에 랭크되어 있지만, 기존 SPOKE 네트워크에서는 직접 연결되지 않은 새로운 관계입니다.

PSEVs uncover specific Disease–Gene relationships

  • 문제 제기: SPOKE에는 많은 개념이 있어 여러 경로가 두 노드를 연결할 수 있습니다. 이는 중복성을 제공합니다. 일부 정보가 누락되어도 랜덤 워커가 유사한 경로를 탐색하여 새로운 관계를 추론할 수 있습니다.
  • 방법:
    • SPOKE에서 모든 질병-질병(MS-RESEMBLES_DrD-ALS) 및 질병-유전자(MS-ASSOCIATES_DaG-IL7R, MS-DOWNREGULATES-PALLD) 엣지를 제거했습니다.
    • 엣지를 제거한 후 PSEVs를 다시 계산하여 질병 PSEVs(PSEVΔDD, ΔDG)를 생성했습니다.
    • 결과로 얻어진 질병 PSEVs를 히트맵에 시각화하고 질병과 유전자로 클러스터링했습니다.
  • 결과:
    • 히트맵에서 명확하게 정의된 질병 그룹을 식별할 수 있습니다. 예를 들어, 질병 클러스터 4는 주로 다발성 경화증, 알츠하이머병, 기면증, 자폐성 장애 및 주의력 결핍 과잉 행동 장애와 같은 신경 질환을 포함합니다.
    • 이 질병 클러스터 4와 관련된 유전자 클러스터에는 197개의 유전자가 포함되어 있습니다.
    • 이 유전자 클러스터 내에서 96개의 유전자가 질병 클러스터 4의 적어도 하나의 질병과 관련이 있으며, 33개의 유전자는 두 개 이상의 질병과, 15개의 유전자는 세 개 이상의 질병과 관련이 있습니다.

 

그림 (A). 질병 PSEVΔDD, ΔDG를 사용하여 생성된 히트맵입니다. 이 히트맵은 각 질병 PSEV에서 유전자 순위(열)와 질병(행)을 보여줍니다.

  • X축 (Genes): 히트맵의 열은 각 유전자를 나타내며, PSEV에서의 순위를 나타냅니다.
  • Y축 (Diseases): 히트맵의 행은 각 질병을 나타내며, PSEV에서의 순위를 나타냅니다.
  • 클러스터링: 질병과 유전자가 모두 클러스터링되어 있으며, 질병 클러스터 4(어두운 보라색)는 주로 신경 질환을 포함하고 있습니다.
  • 높은 순위(낮은 중요도)는 빨간색으로 표시됩니다.
  •  

그림 (c). 유전자 클러스터 6에서 질병 클러스터 4와 관련된 유전자의 관찰된 분포와 기대 분포를 비교한 그래프입니다.

  • X축: 적어도 한 개, 두 개, 세 개의 질병과 관련된 유전자의 수
  • Y축: 확률 밀도
  • 기대 분포와 관찰된 분포 비교:
    • 기대 분포는 무작위 변형을 통해 얻은 평균적인 결과를 나타냅니다.
    • 관찰된 분포는 실제 데이터에서 얻은 결과입니다.
  • 통계적 유의성:
    • 관찰된 분포가 기대 분포를 크게 초과한다는 것은 실제 데이터에서 무작위로 발생할 확률보다 훨씬 높은 빈도로 특정 관계가 나타난다는 것을 의미합니다.
    • 예를 들어, 한 개, 두 개, 세 개의 질병과 관련된 유전자의 실제 수가 기대값을 크게 초과하면, 이는 무작위로 발생한 것이 아니라 실제로 생물학적 의미가 있음을 시사합니다.

(기댓값 확률 그래프를 이용한 비교를 네이터에서도 받아주는 것을 확인함.

Learning rate differs between edge types

지식 네트워크가 불완전한 상태에서 PSEV가 어떻게 성능을 발휘하는지 평가하기 위해, 네트워크에 서서히 엣지를 추가하면서 학습률을 비교했습니다. 잘 확립된 질병-유전자 엣지가 덜 확립된 엣지보다 먼저 학습되었습니다. 이는 PSEV가 생물학적으로 의미 있는 관계를 추론할 수 있음을 보여줍니다​​.

Retracing the path between SEP and genes

PSEV가 질병-유전자 연관성을 정확하게 순위를 매긴 방법을 이해하기 위해, 중요한 SEP와 관련 유전자 간의 최단 경로를 추적했습니다. 예를 들어, CSMD1 유전자는 조현병과 관련이 있으며, EHR 데이터를 통해 이 유전자와 조현병 간의 연관성을 강조할 수 있었습니다. 이는 PSEV가 지식 기반의 명확한 알고리즘을 통해 정밀 의학을 발전시키는 데 기여할 수 있음을 시사합니다​​.

 

그림 (a)

      • 내용: 원래의 PSEV, PSEVΔDD, ΔDG, PSEVRANDOM, PSEVSPOKE SHUFFLED, PSEVSEP SHUFFLED를 사용하여 회복된 질병-유전자 관계 수를 보여줍니다.
      • 히스토그램: 각 색상의 분포는 서로 다른 PSEV 행렬에서 회복된 질병-유전자 관계 수를 나타냅니다.
        • 파란색 (PSEV): 원래의 PSEV를 사용하여 회복된 관계 수.
        • 녹색 (PSEVΔDD, ΔDG): 질병-질병 및 질병-유전자 엣지를 삭제한 후 다시 계산된 PSEV를 사용하여 회복된 관계 수.
        • 핑크색 (PSEVRANDOM): 무작위 PSEV 행렬을 사용한 1000번의 반복 결과.
        • 빨간색 (PSEVSPOKE SHUFFLED): SPOKE 노드를 섞은 후 생성된 PSEV.
        • 주황색 (PSEVSEP SHUFFLED): SEP 노드를 섞은 후 생성된 PSEV.
      • 결과: 파란색과 녹색 화살표는 각각 원래의 PSEV와 PSEVΔDD, ΔDG의 결과를 나타내며, 이는 무작위 분포보다 훨씬 많은 관계를 회복할 수 있음을 보여줍니다.

그림 (b)

      • 내용: 네트워크에 지식(엣지)을 다시 추가함에 따라 상위 질병-유전자 관계의 분해.
      • X축: PSEV 생성에 사용된 질병-유전자의 비율.
      • Y축: 엣지 수.
      • 파이 차트: 각 지식 엣지의 종류를 나타냅니다.
        • 파란색: 알려진 엣지.
        • 보라색: 표현된 엣지.
        • 청록색: 알려지지 않은 엣지.
      • 해석: 네트워크에 엣지를 추가하면 상위 질병-유전자 관계의 수가 증가하며, 이는 네트워크의 풍부한 지식과 관련이 있음을 나타냅니다.

그림 (c)

      • 내용: 삭제된 질병-유전자 연관성을 PSEV를 사용하여 어떻게 회복했는지를 보여줍니다.
      • 과정:
        • 환자와 SEPs: 질병 X를 가진 환자가 SEPs에 압력을 가합니다. 가장 중요한 SEPs는 노드 유형별로 색칠되어 있습니다.
        • 정보 흐름: SPOKE의 다른 노드를 거쳐 유전자에 도달합니다.
        • 유전자: 질병 X와 유전적으로 연관된 유전자에 도달합니다.
      • 해석: PSEV는 중간 노드를 통해 정보를 전달하여 삭제된 질병-유전자 연관성을 회복할 수 있습니다.

그림 (d)

      • 내용: GWAS 카탈로그에서 조현병과 CSMD1 유전자가 연관되어 있음을 보여줍니다.
      • 과정:
        • 정보 흐름: 조현병을 가진 환자의 중요한 SEPs에서 CSMD1 유전자까지의 정보 흐름을 보여줍니다.
        • 연관 노드: SEPs, 경로, 유전자, 증상 등의 노드가 포함되어 있습니다.
      • 해석: PSEV는 SEPs에서 중요한 정보를 수집하여 유전적 연관성을 회복합니다.

요약

이 그림들은 삭제된 질병-유전자 엣지를 PSEV를 사용하여 어떻게 회복했는지를 시각적으로 보여줍니다. 특히, PSEVΔDD, ΔDG가 원래의 PSEV와 비슷한 수준으로 많은 질병-유전자 관계를 회복할 수 있음을 강조합니다. 이는 PSEV가 중복 경로를 통해 생물학적으로 의미 있는 관계를 학습할 수 있음을 시사합니다.

(나는 오히려 PSEV가 완전히 SPOKE 네트워크에 의존적이라는 것을 확신할 수 있는 결과라고 봄,

알고리즘 관련 논문은 데이터는 그냥 있는 거 쓰고, 최적화하고 분석하는게 더 중요해보기도 하고..

 

Conclusions

이 연구는 EHR 데이터와 생물학적 지식 네트워크의 통합을 통해 정밀 의학의 발전에 중요한 기여를 했습니다. 그러나 EHR의 정확성과 지식 네트워크의 불완전성 등 몇 가지 한계가 존재합니다.

  1. Uncovering how different biomedical entities are related to each other is essential for speeding up the transformation between basic research and patient care.
    • 다양한 생의학적 요소들, 예를 들어 유전자, 질병, 약물 등이 서로 어떻게 연결되어 있는지를 밝히는 것은 기초 연구의 결과를 환자 치료에 빠르게 적용하는 데 매우 중요합니다
    • . 의사들이 환자 치료를 위한 최적의 치료 전략을 결정할 때, 환자가 나타내는 증상, 내부 생화학적 상태, 약물의 분자적 영향과 부작용을 동시에 고려해야 합니다.
    • 따라서 이러한 요소들의 관계를 명확히 이해하면 보다 효율적이고 일관된 치료 방침을 수립하는 데 도움이 됩니다.
  2. We argue that since PSEVs can be created for any code or concept in the EHRs, it is possible they could provide such solution.
    • PSEVs는 전자 건강 기록(EHRs)에 있는 모든 코드나 개념에 대해 생성될 수 있기 때문에, 이를 통해 다양한 의료 정보와 생의학적 지식을 통합하는 솔루션을 제공할 수 있을 것입니다.
    • EHRs는 환자의 진단, 치료, 실험실 결과 등 다양한 정보를 포함하고 있는데, PSEVs를 통해 이러한 정보를 생의학 지식 네트워크에 매핑하여 통합하면, 기초 과학과 환자 데이터 간의 격차를 좁히는 첫 걸음이 될 수 있습니다.
  3. Our method for the integration of EHRs and a comprehensive biomedical knowledge network is based on random walk.
    • EHRs와 포괄적인 생의학 지식 네트워크를 통합하기 위한 우리의 방법은 랜덤 워크 알고리즘에 기반하고 있습니다.
    • 랜덤 워크는 네트워크에서 한 노드에서 시작해 무작위로 다른 노드로 이동하는 과정을 반복하는 알고리즘입니다.
    • 이 방법은 단백질-단백질 상호작용 네트워크, 유전자 풍부성 분석, 질병 유전자 순위 매기기 등 다양한 생물학적 주제에 이미 적용되어 왔습니다.
    • 우리의 방법은 EHR의 의료 개념을 이 네트워크에 임베딩하여 PSEVs를 생성하는 것입니다.
  4. We demonstrated that not only do PSEVs carry the original relationships in SPOKE, but also were able to infer new connections.
    • PSEVs는 SPOKE 네트워크의 원래 관계를 그대로 유지할 뿐만 아니라, 새로운 관계도 추론할 수 있음을 증명했습니다.
    • 이는 질병-질병, 질병-유전자, 화합물-화합물, 화합물-유전자 엣지뿐만 아니라, 부작용-해부학 노드 간의 새로운 관계를 추론할 수 있는 능력을 보여줍니다.
    • 이로써 PSEVs가 다양한 유형의 노드 간의 관계를 학습할 수 있는 능력을 입증했습니다.
  5. These results illustrate that, unlike black box methods, PSEVs are capable of embedding phenotypic traits, such as risks, co-morbidities, and symptoms.
    • 이 결과는 PSEVs가 블랙 박스 방법과 달리, 위험 요소, 공존 질환, 증상과 같은 표현형 특성을 임베딩할 수 있음을 보여줍니다.
    • 블랙 박스 방법은 내부 구조를 이해하기 어렵지만, PSEVs는 각 요소의 중요도를 명확히 이해할 수 있게 합니다.
    • 예를 들어, 특정 질병과 연관된 유전자나 경로를 명확히 식별하여 기계 학습 플랫폼에서 사용할 수 있는 형식으로 출력할 수 있습니다.
  6. The main limitations of this approach mostly stem from the potential inaccuracies in the EHRs and the incompleteness of the knowledge networks (SPOKE).
    • 이 접근법의 주요 한계는 주로 EHR의 잠재적인 부정확성과 지식 네트워크(SPOKE)의 불완전성에서 기인합니다.
    • 환자의 신뢰성과 프라이버시를 유지하는 것이 중요하지만, 이는 기관들이 비식별화된 기록조차 공유하기 어렵게 만들고 있습니다.
    • 따라서 사용된 환자 집단이 일반 인구를 대표하지 않을 수 있습니다.
    • 또한, 많은 기관들이 표준화된 의료 용어를 사용하지 않아 EHR 개념을 SPOKE에 정확히 매핑하는 데 어려움을 겪습니다. 그러나 표준 용어를 사용하는 기관들은 이 방법을 쉽게 구현할 수 있습니다.
  7. The potential uses of PSEVs are vast. We recognize that several associations in EHRs can be uncovered using clinical features alone, and several machine-learning approaches are already being utilized to that end.
    • PSEVs의 잠재적 사용 용도는 매우 광범위합니다. EHR의 여러 연관성은 임상적 특성만으로도 발견될 수 있으며, 이를 위해 이미 여러 머신 러닝 접근 방식이 사용되고 있습니다.
    • 그러나 PSEVs는 임상적 특성을 더 깊은 생물학적 수준에서 설명할 수 있으며, 이를 통해 질병 바이오마커를 발견하고, 환자를 특성화하며, 약물 재사용을 탐색하는 데 사용할 수 있습니다.
    • 이러한 기능을 구현하면 PSEVs나 유사한 방법이 정밀 의학을 발전시키는 중요한 도구가 될 것으로 기대합니다.

Dicussion 내 감상 :

 

  • 기존의 Knowledge Graph와 Random Walk 기반 알고리즘의 접목
    • 긍정적 측면: SPOKE 네트워크에서 Random Walk 기반 PageRank 알고리즘의 접목해 EHR 정보를 seed node(여기서는 SEPs)로 설정하고 값을 전파하는 방식이다. 기존의 knowedge graph를 확장할 수 있는 방법을 제안하고있다.
    • 부정적 측면: 이러한 접근법은 기존의 알고리즘을 단순히 변형한 것이다. 이미 edge 기반의 heterograph network를 통합하는 방식으로 PageRank 및 RWR 방법이 사용하고 있어 참신한 방법은 아니다.
  • MIMR 논문에 적용 가능성
    • 참신한 방법이 아니다보니 결과를 해석하는 부분이 굉장히 상세해서 참고할만하다. 특히 기대 확률 그래프 부분은 MIMR 논문에서도 활용해야겠다.
  • Cohort 크기 고려 부족
    • Cohort 크기를 고려하지 않고 랭크 값을 비교한 점이 의아하다.
    • 논문에서 언급한 부분이 있는지 다시 확인해 필요가 있다. 
    • 그래서 나같은 경우 MIMR를 작성할 때, rank를 비율로 변환해서 비교한 결과를 사용했다. 
  • Redundancy와 데이터 불완전성
    • PEVs가 SPOKE 데이터의 불완전성을 보완할 수 있다는 점을 증명한 과정이 참고할 만했다.
    • 하지만 이 결과가 데이터 의존적이지않다고는 볼 수 없었다.
    • 또한 오히려 나는 redundancy를 부정적으로 봤는데, 이런식으로 해석할 수 있음을 확인했다.