DCGAT-DTI: dynamic cross-graph attention network for drug–target interaction prediction
https://academic.oup.com/bioinformaticsadvances/article/6/1/vbaf306/8380349
2025,Bioinformatics Advances(IF=2.8)
유전자 인코딩 아이디어를 얻고 약물의 보조 임베딩으로써 활용가능할지에 대해 탐구.
약물-표적 상호작용(DTI) 예측은 화학 물질과 단백질간의 상호작용을 식별함으로써 약물 개발을 촉진시켰다. 기존 방식은 주로 약물 간, 혹은 단백질 간의 유사성 그래프에 의존해 왔으나, 이들을 각각 독립적으로 처리하기 때문에모달간의 상호의존성(interdependency)을 모델링하는 데 한계가 있었다. 본 연구에서는 단백질과 약물 그래프에서 단순히 개별 임베딩을 생성하는 수준을 넘어, DCGAT-DTI라는 새로운 딥러닝 프레임워크를 제안한다.
이 모델은 dynamic cross-graph attention (DCGAT)을 통해 그래프 내부 및 그래프 간의 상호작용을 동적으로 모델링한다. 먼저 사전 학습된 언어 모델을 이용해 초기 임베딩을 생성한 뒤, 이를 바탕으로 유사성 그래프를 구축한다. 이후 GCN 기반의 교차 이웃 선택(Cross-Neighborhood Selection) 네트워크를 통해 모달리티를 넘나드는 이웃 노드들을 동적으로 선별하며, 이 과정을 통해 약물과 단백질 임베딩 정보가 서로 유기적으로 통합된다.
* dynamic cross-graph attention (DCGAT)
* Cross-Neighborhood Selection network
4개의 벤치마크 데이터셋을 대상으로 광범위한 평가를 수행한 결과, DCGAT-DTI는 균형 및 비균형 데이터셋의 웜 스타트(Warm start)와 콜드 스타트(Cold start) 분할 조건 모두에서 SOTA(최고 수준) 성능을 달성했다. 특히 가장 까다로운 조건인 비균형 콜드 스타트 시나리오에서도 기존 베이스라인 모델들을 상회하며 약물과 단백질 예측 성능 모두에서 유의미한 향상을 보여주었다.
1. Problem
- 약물 간, 혹은 단백질 간의 유사성 그래프에 의존해 왔으나, 이들을 각각 독립적으로 처리하기 때문에모달간의 상호의존성(interdependency)을 모델링하는 데 한계가 있었다
2. Related Work
- DTI-LM (2024): 언어 모델로 임베딩을 만들고 그래프 어텐션(GAT)을 쓰지만, DCGAT처럼 '동적'이고 '교차적'인 그래프 관계까지는 깊게 파고들지 못함.
- CCL-DTI (2024): 약물-약물, 단백질-단백질 네트워크를 통합하지만, 주로 '대조 학습(Contrastive loss)'을 통해 특징을 강화하는 데 집중함.
- CAT-DTI (2024): CNN과 트랜스포머의 크로스 어텐션을 쓰지만, 이는 주로 도메인 적응(Domain adaptation)에 초점이 맞춰져 있음.
- SMILES와 단백질 서열에서 장거리 의존성을 포착하여 예측 정확도를 더욱 향상시켜왔다.
- 특히, ProtTrans 계열의 ProtT5( Elnaggar et al. 2022 ) 및 ProteinBERT( Brandes et al. 2022 )와 같이 단백질에 특화된 사전 학습된 언어 모델이나
- ChemBERTa( Chithrananda et al. 2020 ) 와 같이 화학 물질 토큰에 특화된 사전 학습된 언어 모델은 하위 작업의 정확도를 높이는 풍부한 임베딩을 제공한다.
3. Idea
- 손실함수: BCE + contrastive loss
BCE 손실 함수를 통해 상호작용의 존재 여부(drug-target)를 정확하게 예측하는 동시에,
지도 학습 기반의 대조 손실 함수를 사용하여 잠재 공간의 임베딩을 정렬함으로써
상호작용 (drug-target) 하는 쌍은 서로 가깝게, 상호작용하지 않는 쌍은 서로 멀리 배치. - 약물 간, 혹은 단백질 간의 유사성 그래프에 의존해 왔으나, 이들을 각각 독립적으로 처리하기 때문에모달간의 상호의존성(interdependency)을 모델링하는 데 한계가 있었다
가장 큰 특징은 모든 약물과 단백질 노드를 무분별하게 연결하지 않는다는 점입니다. Cross-Neighborhood Selection (CNS) 네트워크를 통해 각 레이어에서 현재 노드와 가장 관련성이 높은 이종 모달리티의 이웃만을 동적으로 선택
- 1. 동적 교차 그래프 이웃 선택 (CNS Network)
- 2. 이중 어텐션 메커니즘과 독립적인 가중치 학습
임베딩을 업데이트할 때, 같은 그래프 내의 정보(intra-graph)와 다른 그래프의 정보(cross-graph)에 대해 별도의 학습 가능한 가중치를 사용하여 처리 - 3. 지도 학습 기반 대조 학습 (Supervised Contrastive Loss)
약물과 단백질의 임베딩이 서로를 보완하며(co-evolve) 공동의 잠재 공간에서 일관된 의미를 갖도록 정렬 - 4. 잔차 연결 (Residual Connection)
DCGAT 모듈을 거쳐 업데이트된 임베딩은 그대로 사용되는 것이 아니라, **초기 임베딩()과 잔차 연결(Residual Connection)**을 통해 결합

4.Take away
- 보통 이질성때문에 임베딩을 섞을 때, 구분해서 학습을 시도하거나 fusion된 임베딩을 만들어내도록 모델을 추가한다.
해당 모델은 "임베딩 벡터의 '정체성(차원)'은 유지하되, 그 안에 담기는 '내용물(정보)'은 상대방의 정보를 반영하여 업데이트하는 방식을 선택한다" - 정보 결합 (Aggregation) 가장 핵심이 되는 부분으로,
각 레이어에서 약물 임베딩은 내부 정보(Intra-graph)**와 교차 정보(Cross-graph)**를 동시에 참조하여 업데이트한다.- Intra-graph (약물 간 정보): 유사도 그래프에서 연결된 '이웃 약물'들의 정보를 어텐션 메커니즘(α)을 통해 수집합니다.
- Cross-graph (단백질 정보): CNS 네트워크를 통해 동적으로 선택된 '관련 단백질'들의 정보를 어텐션 메커니즘(β)을 통해 가져옵니다.
- 결합 방법: 이 두 정보를 각각의 가중치(W1,W2)와 함께 더하는(Aggregation) 방식으로 새로운 임베딩(dl+1)을 만든다.
- 이때 잔차 연결(Residual Connection) 단계를 통해 원본 임베딩을 보존하도록한다.
- 약물 벡터가 업데이트될 때, "나랑 잘 맞는 단백질들은 이런 특징이 있네?"라는 정보를 수치화(Attention score)하여 자기 자신의 벡터 값에 미세하게 더해줌.
- 각 모달리티는 독립적인 경로를 가지지만, 그 업데이트 방향은 철저하게 상호작용을 예측하는 쪽으로 수렴한다.
- 지도 학습 기반 대조 학습 (SCL): 이 단계가 바로 "방향성"을 잡아주는 핵심입니다.벡터 자체를 섞지 않아도, "실제로 결합하는 쌍은 잠재 공간(Latent Space)에서 같은 위치로 모여라!"라고 강제하는 손실 함수(Loss)를 사용

Unbalanced, Cold start for drug에서는 여전히 AUPRC 0.697으로 여전히 해결하기 어려운 문제임.
나는 오히려 이렇게 복잡한 모델을 사용하지않은, 이 전 버전 모델 DTI-LM 이 더 대단해보임.
DTI-LM은 똑같이 protein sequence와 Drug sequence를 ESM과 ChemBERTa 임베딩을 사용함!

