본문 바로가기

Paper

[RWR] Identification of genes related to proliferative diabetic retinopathy through RWR algorithm based on protein–protein interaction network

 

 

Identification of genes related to proliferative diabetic retinopathy through RWR algorithm based on protein–protein interacti

Proliferative diabetic retinopathy (PDR) is one of the most common complications of diabetes and can lead to blindness. Proteomic studies have provide…

www.sciencedirect.com

2018, Elsevier, 27회 인용

 

The flow chart of the proposed method and the results in each step.

RWR으로부터 얻은 potential PDR-realted gene set 에서
FDR을 줄이고, 낮은 수준의 potential을 가진 유전자들을 필터링하기위해 3가지 전략을 사용했다.

 

1. Permutation test

- RWR 알고리즘은 사용한 네트워크(PPI of STRING DB)의 정확도와 관련성이 높다.

- 부적절한 네트워크를 사용하면 FDR 율이 높아지는데, 이를 제어하기 위해 제안된 방법이다.

- 즉 false positives을 제외하는 방법이다.

방법)

- 무작위로 각 34개 개씩 1,000개의 Ensemble ID set 생성

- Ensemble ID를 RWR 알고리즘의 시드 노드로 설정하여 각 노드에 대한 방문 확률을 모두 산출해낸다.

- 1,000개의 Ensemble ID set 을 모두 테스트 한 후, 각 유전자에 1000개의 확률을 할당한다.

- g : RWR 의 단일 노드, 유전자

- π는 Ensembl ID 세트의 수이며

  알려진 PDR 관련 유전자에 의해 생성된 것보다 잠재적인 PDR 관련 유전자 g의 확률이 더 높은 경우

  1000개 Ensembl ID 세트 각각에 대해 1씩 계산된다.

- p-value(g) 이며, 0.05로 컷오프 진행

 

2. Interaction test

- 필수적인 유전자를 선택하기 위함.

  - 기존에 알려진 PDR 관련 유전자와 상호작용을 하는 유전자

   - 즉, RWR 알고리즘으로 예측된 잠재적인 PDR 관련 유전자 중에서, 적어도 하나 이상의 기존 PDR 관련 유전자와 높은 상호작용 점수를 갖는 유전자

    - 이는 기존에 알려진 PDR 관련 유전자와 유사한 기능을 가진 새로운 유전자 후보군을 찾기 위한 중요한 기준 중 하나

- maximum interaction score (MIS) 을 정의

- 서로 상호작용할 수 있는 단백질은 유사한 기능혹은 동일한 생물학적 경로에 관여할 수 있기 때문

- S(g, g') : g 와 g' 사이의 상호작용 점수(STRING score), 900점을 컷 오프 기준

 

3. Enrichment test on GO and KEGG

- 이미 알려진 PDR 관련 유전자 34개는 몇 가지 공통점을 공유하는데, GO term 과 KEGG pathway 가 같거나 유사하다

- enrichment test를 통해 potential PDR-related gene 각각의 중요도를 평가한다.

 

3.1. gene과 GOterm 간의 연관성을 평가

- ES(g) : gene g에 대한 enrichment test resut, a numeric vector

    - enrichmnet test : Fisher's Exact Test, Hypergeometric Test, and Benjamini-Hochberg correction

3.2. 두 유전자 g, g`간의 유사성 평가

- 만약 Δ(g, g') 가 크다면, g  g' 유전자는 서로 유사한 GO terms and KEGG pathways를 갖는다.

3.3. 각 potential PDR-related gene(g)에 대하여 maximum enrichment score(MES)를 구한다.

- several GO terms and KEGG pathways were shared by this gene and at least one known PDR-related gene

- 0.97 기준으로 컷 오프

 

 


새로운 방법인 것같아서 내 연구에 접목 시키고자 했다.

하지만 내 연구와 유사하다는 것을 확인했다.

1. STRING 상위 1% 만 사용

2. xd-score 계산

3. enrichment test score를 p-value 처럼 사용

 

다만 seed gene과 연관된 PPI를 뽑아오고, 정확도를 측정했다는 점을 접목시켜볼 수 있을 것같다.

사실, DEmiRNA target과 DEmRNA 을 단순히 통합하는 방법이 아닌 통계적 기법을 찾고 싶었는데, 완전히 적합한 논문은 아닌 것같다.

일반적으로 union, intersection, peason, spearman, Bayesian correlation 을 통해 뽑아내는 방식과 딥러닝을 이용한 방식이 있다.

correlation의 경우 대부분의 논문은 음의 관계성에 대해서만 고려한다.

"The regulatory impact of RNA-binding proteins on microRNA targeting" 논문에서도 모든 RBP들이 MT 인헨서로 동작하고 서프레서는 단 하나도 동작하지 않음을 확인했다.

그렇다면 과연 음의 관계성에 대해서만 고려해야되는 것인가에 대한 의문은 아직도 존재한다.