본문 바로가기

Paper

Visible neural networks for multi-omics integration: a critical review

Visible neural networks for multi-omics integration: a critical review

https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2025.1595291/full

2025, SYSTEMATIC REVIEW article

 

* Biologically informed neural networks (BINNs), also referred to as visible neural networks (VNNs),

1.Background

멀티 오믹스(multi-omics)란 유전체학, 전사체학, 단백체학, 대사체학 등 다양한 출처의 정보를 결합하는 접근 방식을 의미한다.

이의 등장으로 복잡한 상호 작용 및 조절 메커니즘을 분석할 수 있게되었다.

멀티 오믹스를 활용한 딥러닝 접근 방법은 figure1에 소개된것 같이 다양하다. 

 

해당 논문에서 주목하는 모델은 VNN( figure1.d )으로, 사전 지식을 아키텍처에 직접 통합하는 방식이다.

다른 접근방법과는 달리 '숨겨져 있던' 은닉 노드들이 유전자나 경로(pathway) 같은 개체에 직접 매핑한다.

해당 방식은 데이터베이스에 의존적이기때문에, 데이터가 희소한 경우 레이어 간의 연결에 제약존재한다.

반면에, 기존의 NN 방법은 직접 매핑하는 방식이아니고, 레이어간 연결이 상대적으로 자유롭다.

논문에서  " 상대적으로 제약 없는 기능적 근사치를 학습"한다고 표현한 이유가 여기에 있다.

 

VNN은 추론 결과의 과정 보여줄 수 있는 것이 장점이다.

예측한 결과의 신뢰성과 타당성을 보여줄 수 있는 것이다. 

이는 전문가의 의사결정에 도움을 주어, 실제 바이오마커 발굴 및 신약 개발을 향상시킬 잠재력을 가지고 있다.

 

Machine learning approaches to multi-omics integration.  (a)  Feedforward neural network.  (b)  Autoencoder.  (c)  Patient similarity network.  (d)  Biologically-informed, visible neural network.

 

2025년부터, 다양한 VNN 모델들이 제안되어 왔지만,

과학적 재현성, 강건성(robustness), 그리고 일반화 가능성을 촉진할 수 있는 표준화된 용어나 명확한 설계가 아직 없다.

 

따라서 본 논문은 BINN/VNN을 구현한 최근 논문 86편에 대해 다음과 같은 작업을 수행했다.

  • 생물학적 인공신경망(Binn) 아키텍처의 분류 체계(taxonomy)를 제시
  • Binn/VNN 구축에 관여하는 의존성, 가정, 데이터 소스 및 도구들을 비판적으로 평가
  • 연구 공백(research gap)과 향후 과제를

핵심 연구 질문:

  • Binn은 전통적인 머신러닝(ML) 모델에 비해 어떤 이점을 제공하며,
    이들의 상대적 성능은 통상적으로 어떻게 벤치마킹되는가?
  • VNN에서 도출된 생물학적 해석은 아키텍처 설계 결정에 대해 강건(robust)하며, 여러 연구 전반에 걸쳐 재현 가능한가?
  • VNN은 새로운 과학적 지식을 발견할 수 있는가?

 

2. Related Work

(왼) Input data types in published VNN models. (오) Sources of omics data and pathway knowledge in biologically-informed models.

 

3. Results

문제, 해결 방법, 자세히 볼 논문, 적용해볼 방법

5.4.1 VNN과 고밀도(Dense) 모델의 성능 비교:

  • 정보 처리 및 희소성: VNN은 세포 조절 시스템을 모방하여 "정보 처리 단위"로 작동함. 블랙박스 형태의 완전연결(Fully-connected) 네트워크보다 훨씬 더 희소(sparse)하면서도 유사한 예측 성능을 제공하고 깊은 메커니즘 이해를 도움.
  • 구조적 중복성 문제와 해결책: 구조적 중복성으로 인해 가중치 변동이 생겨 해석의 강건성이 떨어질 수 있음.
    • 이를 해결하기 위해 학습 중 은닉 노드에 드롭아웃(Dropout)을 적용하거나, 가지치기(Pruning) 매커니즘(예: ParsVNN)을 통해 모델을 단순화하여 계산 시간과 메모리, 유전자 수를 최대 90% 줄이면서도 정확도를 높인 사례가 있음.
  • 예측 성능에 대한 상반된 결과: * 동일한 깊이/희소성을 가진 블랙박스 NN과 유사한 성능을 보인 연구(Kuenzi et al., 2020)가 있는 반면, 랜덤 연결 네트워크나 완전연결 모델보다 생물학적 희소 네트워크가 명백히 우수한 성능을 보였다는 연구(Pedersen et al., 2023; Lin et al., 2017)도 존재함.
    • 단, 멀티오믹스 데이터 통합 단계(초기 융합 vs 후기 융합)에 따라 VNN 성능이 민감하게 반응하므로 성능 비교 시 기준(baseline) 설정을 주의해야 함.

-> Droupout 및 멀티 오믹스 통합단계 고려 필요

 

 

5.4.2 아키텍처(구조)에 따른 성능 민감도:

  • PINNet (2023): GO(Gene Ontology)와 KEGG 지식을 기반으로 한 두 가지 VNN 모델이 일반 모델보다 우수한 성능을 보임.
  • PBAC (2024): 절제 연구(ablation study)를 통해 생물학적 정보 마스크나 어텐션(attention) 레이어를 제거했을 때 약물 반응 예측 성능이 감소함을 확인하여 구조의 중요성을 입증함

-> pahtway 정보를 모델에 직접 주입하는 것이나 어텐션 레이어가 예측성능에 크게 기여함

 

5.4.3 해석의 강건성(Robustness):

  • 기존 한계 상속: 유전자/경로 풍부도 분석(enrichment analysis) 프레임워크와 동일한 지식을 공유하므로, 유전자 수가 적은 구체적인 경로와 유전자 수가 많은 광범위한 경로 간의 균형을 맞추는 문제를 그대로 안고 있음.
  • 과적합 및 불안정성: 샘플 크기가 작을 때 과적합 및 학습 데이터 분할/초기화 상태에 따라 결과가 크게 바뀌는 불안정성이 존재함. 이를 막기 위해 드롭아웃 레이어 도입, 가중치 감쇠(weight decay), 가중치 방향 제한(양수 가중치 고정) 등의 전략이 사용됨.
  • 해결 대안 (DeepBinn): 바이오마커 서명의 강건성 문제를 해결하기 위해, 경로별로 고정된 은닉층을 가진 서브 네트워크를 맞추고 해당 경로의 중요도를 측정하는 방식을 제안함. 연속적인 초기화 과정에서도 경로의 순위를 비교함으로써 "강건한" 바이오마커 서명을 얻을 수 있다고 주장함.

 

5.6 과학적 발견 (Scientific discovery):

  • 구조 학습의 가능성: VNN이 일반 조밀한(dense) 모델보다 성능이 우수하다는 점은, 규제화(regularization)나 가치치기(pruning) 기반의 신경망 구조 탐색을 통해 사전 지식 없이도 역으로 생물학적 경로 구조를 학습할 수 있다는 가능성을 시사함. 그러나 지식 그래프의 간선(edge) 예측처럼 새로운 경로 관계를 예측하는 연구는 아직 널리 탐구되지 않음.
  • 기존 연구들의 한계와 시도:
    • ParsVNN, DeepHisCoM, DeepBinn: 불필요한 경로를 제거하거나 기존 경로 간의 비선형 관계를 탐구하지만, 여전히 기존의 생물학적 지식 구조 안에서만 작동함.
    • PathExpSurv (2023): 기존 데이터베이스에 없는 경로를 포함하는 '경로 확장(pathway expansion)'을 수행함. 먼저 생물학적 희소 네트워크를 학습시킨 후 조밀한 연결로 미세조정(fine-tuning)을 진행하는데, 이 두 번째 단계에서 규제화되지 않은 가중치들을 통해 미발견된 경로의 가능성을 제시함.
    • 혼합 레이어(Mixed layers): 해석 가능한 노드와 해석 불가능한 노드를 동시에 포함하여 데이터베이스의 제약을 넘어선 예측 성능을 끌어낼 수 있으나, 아직 새로운 경로 발견에는 적용되지 않음.

5.7 리소스 및 도구 (Resources and tools):

  • 오픈소스 코드의 현황: 많은 논문이 재현성을 위해 오픈소스 코드를 제공하지만, 원천 데이터나 전처리 코드가 누락되거나 특정 데이터셋에 하드코딩되어 있어 유지보수 및 재사용성이 보장되지 않는 경우가 많음. (단, P-Net의 코드를 최신 ML 프레임워크로 업데이트하여 재현에 성공한 사례나 GenNet 프레임워크처럼 해석성 모듈이 지속해서 확장되는 긍정적 사례도 존재함)
  • 주요 패키지 및 프레임워크:
    • binn (2023): 단백질체학(proteomics)에 특화되어 있으며, 주어진 입력 경로 세트를 바탕으로 VNN을 구축할 수 있는 기능을 제공함.
    • Autoencodix (2024): 다양한 오토인코더 구조를 구축하는 프레임워크로, 온톨로지 기반 구조를 옵션으로 포함함.
  • 현존하는 공백(Gap): 멀티오믹스 데이터 입력과 다양한 경로 데이터베이스를 지원하며, 예측 및 해석의 강건성을 검증할 수 있는 사용자 친화적인 범용 패키지가 아직 부족함. 특히 생물학을 넘어 화학이나 사회과학 등 비생물학적 온톨로지 모델링에도 적용할 수 있는 고도의 범용 희소 VNN 패키지가 필요한 실정임.

현존하는 한계점

  • 부족한 벤치마킹: 인공신경망보다 뛰어난 성능을 보일 수 있는 전통적인 ML 방법(예: SVM)이나, 지식 통합의 가치를 측정할 수 있는 '일반 NN' 및 '기존 VNN 프레임워크'와의 비교 분석이 부족한 연구가 많음.
  • 이론적 검증 및 복잡성 반영의 부족: 노드 활성화가 실험실 수준에서 검증(In vitro)된 사례는 있으나, 이것이 데이터 기반이면서 동시에 귀납적 편향에 의해 형성된 것인지는 명확히 증명되지 않음. 또한 단순화된 '유전자-경로' 매핑은 방향성이나 조절 관계를 무시하여 실제 세포 생물학의 다층적 복잡성을 포착하는 데 한계가 있음.
  • 데이터베이스(DB) 의존성: 불완전하거나 품질이 낮은 경로 DB에 의존함. 특히 자동화된 큐레이션에 의존하는 비인간/비모델 생물학 데이터는 강건성이 떨어짐. 다른 DB를 썼을 때의 영향에 대한 벤치마킹도 부족함.
  • 새로운 발견의 미진함: VNN을 경로 확장이나 새로운 생물학적 관계 발견에 활용한 연구는 거의 없어 개척되지 않은 영역으로 남아 있음.
  • 데이터 융합(Fusion)의 문제: 거의 모든 VNN이 멀티오믹스 데이터 통합 시 초기 융합(Early fusion)에 의존하여 구조적 정보 손실과 성능 저하를 야기함. 중간 융합(Intermediate fusion) 같은 고도화된 전략의 도입이 필요함.

4. 결론

 

  • 학계의 당면 과제: 2020년 이후 크게 성장했으나 용어의 표준화(Binn, VNN 외 다양한 명칭 혼용), 벤치마킹 방법론 정립, 재현성 향상 등의 과제가 남아 있음. 종합적인 벤치마킹 프레임워크 구축이 절실함.
  • 향후 연구 방향:
    • 경로 수준 해석의 강건성과 '희소성-예측 정확도' 간의 상호작용에 대한 체계적 평가.
    • 더 유연한 데이터 융합 전략을 통한 멀티오믹스 통합 및 종양학(Oncology) 이외의 분야로의 확장.
    • VNN을 쉽게 구축하고 평가할 수 있는 범용적이고 사용자 친화적인 소프트웨어 프레임워크 개발.
    • 신경망 구조 탐색(NAS)을 통해 새로운 경로 관계를 역으로 발견하는 기회 모색.