본문 바로가기

Paper

ArcDFI: Attention regularization guided by CYP450 interactions for predicting drug-food interactions

ArcDFI: Attention regularization guided by CYP450 interactions 
for predicting drug-food interactions

https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1013055

2025, plos computational biology(IF-3.6)

새로운 분야인 Drug-Food 에 대해 보고자함.

 

CYP450 동위효소들은 약물-음식 상호작용(DFI)의 형성에 깊이 관여하는 것으로 알려져 있다. DFI를 예측하기 위해 이전에 도입된 계산 과학적 접근법들은 약물-CYP450 상호작용(DCI)을 고려하지 않으며, 모델 학습 중에 보지 못한 화합물을 다루는 데 있어 제한적인 일반화 능력을 갖는다.
- are known to be deeply involved in the formation ~


본 연구에서는 CYP450 상호작용에 의해 가이드되는 어텐션 정규화(Attention Regularization)를 활용하여 약물-음식 상호작용을 예측하는 모델인 ArcDFI를 소개한다. 엄격한(Stringent) Cold-drug 및 Cold-food 설정하에서 수행된 DFI 예측 실험 결과, 우리 모델은 10개의 베이스라인 접근법보다 우수한 성능을 보였으며, 이는 CYP450 상호작용을 통합하는 것의 효과를 입증한다.

- "guided by" → "~를 반영하여" 또는 "~에 기반하여"

- "result in improved predictive ... " → 기본적으로 "~를 초래하다" 이지만 문장 수식을 위해 "~를 유발하는/증가시키는"

어텐션 메커니즘에 대한 분석은 모델이 현재 DCI를 어떻게 이해하고 있는지, 그리고 그것이 DFI 예측과 어떻게 연관되어 있는지에 대한 통찰을 제공한다. 본 연구진이 알고 있는 바로는(To the best of our knowledge), ArcDFI는 DCI의 개념을 통합하여 예측 일반화 능력과 모델 설명력을 향상시킨 최초의 DFI 예측 모델이다.

ArcDFI is available at https://github.com/KU-MedAI/ArcDFI.

 

1. 어텐션 정규화 (Attention Regularization)
트랜스포머 기반 모델에는 데이터의 어느 부분에 집중할지 결정하는 '어텐션(Attention)' 메커니즘이 있는데,
모델이 학습 데이터에만 너무 치중하면, 엉뚱한 특징(Noise)에 집중하여 예측을 그르칠 때가 있다.

이때, 모델이 멋대로 어텐션을 할당하지 않도록, 외부의 지식(여기서는 CYP450 상호작용 정보)을 가이드라인으로 주어 어텐션의 방향을 강제로 교정(Regularize)하는 기술임.

 

2. Cold-setting

보통 학습에서 봤던 약물과 음식이지만 새로운 조합에 대해서 테스트하기 마련인데,

이것도 보다 더 어려운 환경을 세팅한 것이다. 아예 생판 처음보는 약물과 음식 그리고 조합에 대해서 예측하는 것이므로 월씬 까다롭고 현실적인 조건으로 엄격하다고 표현한 것이다.

1. Problem

  • 우리가 섭취하는 음식은 체내에서 약물의 작용 방식에 상당한 영향을 미칠 수 있다.
    • 어떤 음식은 약물의 효과를 감소시커나 부작용을 일으킬 수 있다.
    •  자몽 주스는 CYP3A4를 억제하여 스타틴의 혈중 농도와 독성 위험을 증가
    •  비타민 K가 풍부한 식품이 warfarin의 항응고 효과를 감소
  • 이러한 상호작용이 발생하는 주요 경로 중 하나가 CYP450 간 효소이다.
    • 음식이 CYP450  약물의 흡수, 처리 및 배설 방식에 영향을 줄 수 있다.
    • CYP450  데이터가 얼마나 다양한지 .. 도 궁금

2. Related Work

  • DFinder(2023):
    • 143개의 약물과 213개의 음식 성분을 포함하는 총 1784개의 상호작용 데이터
    • FoodDB에서 food constiuents list를 구성
    • drugbank의 drug 리스트와 pair 구성
    • pubmed 내 3,300,000 abstract에서 pdir 구성
      • structure feature extraction. We use a simplified GCN-based
      • smiles structural similarity profile
      • 이 두 벡터를 concat한 food, drug 에 대해 link prediction
      • Bayesian Personalized Ranking (BPR) loss
        • 사용자, 긍정 아이템, 부정 아이템)**으로 구성된 **트리플렛(Triplet)*을 학습함.
        • margin 만큼 학습하는 margin loss와 다르게 조금이라도 차이를 벌리도록 학시키며 sigmoid함수를 사용
  • DFI-MS(2024)
    • DrugBank(v5.1.7) 데이터베이스내 DFI 데이터 수집
      • 143개의 약물과 213개의 식품 성분을 포함하는 1784개의 상호작용
    • PubMed에서 일련 규칙을 따라(DFinder) 수집
      • 779개의 약물과 818개의 식품 성분을 나타내는 15,890건의 약물-식품 성분 상호작용
    • long-tail 데이터 분포를 갖게되면서, 데이터 증강과 같으 기법 사용을 고려함.
      • 데이터 증강은 과적합의 위험을 내포하고 있으며, 언더샘플링은 과소적합을 초래할 수 있음.
    • cosine similiarity 를 loss로 사용

3. Idea

  • amino acid 서열이 있는 CYP450 -> ESM2
  • Drug, Food는 화합물 -> SMILES -> Graph Encoder(GIN)
    • The initial features for the nodes (atoms) are the atomic number, chirality, degree, formal charge, number of hydrogen atoms, number of radical electrons, hybridization, aromaticity, and ring-like structure. The initial features of the edges (bonds) are the bond types, stereo configuration, and conjugation.
    •  Graph Isomorphism Network(실습 노트북 포함): Isomorphic graphs mean that they have the same structure. 동형 그래프 구조를 동일하다고구분해 낼 수 있는 모델
    • substracture로 나눈 의미는? 장점이 뭐가 있을 까? 그림보면 작용하는 substracut는 cyp 에 동일한
  • CYP1~5에 해당하는 토큰과 sub structure 토큰간의 QKV 를 계산한 것.
  • psuedo-substracture 10개 추가, 어떻게든 attention을 주려고하는 모델의 한계 때문에 대용으로 넣은것. 예를 들어 food-cyp 라벨이 없는 경우 psuedo-substracutre에 attetnion을 주도록
  • 어떤 CYP ensyme이 어떤 substracture를 중요하게 생각하는지 탐색하기 위함.

 

  • Attention 을 Auxiliary loss objective에 어떻게 활용했다는지 이해 필요

 

  • 주요하게 관찰된 sub stract를 동일할 수도 있고( 주로 동일한것 같지만) 안할 수 도있는데, 거기에 어떤 효소가 얼만큼 관여하는지를 해석할 수 있다는 점에서 큼

최종 로스

4. Materials & Methods

DFI:  FooDrugs[ 18 ]와 FDMine[ 19 ]

  • FooDrugs: 자연어 처리 기술을 사용하여 텍스트 문서에서 수집하고 유사성 프로파일 분석을 통해 유전자 발현 데이터에서 추론한 50만 개 이상의 DFI -> 유사성 프로파일 분석이 뭔지?
  • FDMine 787개의 약물과 563개의 식품 화합물에 대한 이진 레이블이 지정된 쌍별 상호작용을 포함. DrugBank[ 13 ]와 Food Database(FooDB[ 20 ])을 포괄함. 
  •  
  •  Pos/Neg는 상호작용 유무임.
    • Neg가 따로 있는게 신기하고, pos 는 없음
    • 부작용이 있는것도 상호작용에 포함되어있을 것임

DCI: DrugBank 데이터베이스[ 13 ]와 Drug Interactions Flockhart Table[ 14 ]

  • 양성(DCI 존재) 및 음성(DCI 부재)
  • 세 가지 데이터 소스를 통합하여 5가지 CYP450 동위효소(CYP1A2, CYP2C9, CYP2C19, CYP2D6 및 CYP3A4)와 2가지 상호작용 유형(기질 및 저해)을 포함하는 약물-CYP450 상호작용(DCI) 데이터 세트를 구축
  • 다른 CYP450 동위효소(예: CYP2E1)와 상호작용 유형(예: 유도)도 있지만, 상대적으로 활용도가 높은 것들만 선택
    • 활용도가 높은 것들이라는 것이 무엇인지.. 

5. Evaluation & Findings

  • 먼저 DFinder[ 5 ]와 DFI-MS[ 6 ]를 주요 기준 모델, DeepSynergy[ 27 ], DeepDDI[ 54 ], EPGCN-DS[ 29 ], CASTER[ 30 ], SSI-DDI[ 31 ], MatchMaker[ 32 ], MR-GNN[ 33 ], DeepDrug[ 28 ]
  • under the cold drug experiment setting

  • under the cold food experiment setting

  • Analysis on ArcDFI’s Compound-CYP Interaction Block
    • gene-comound로 확장 가능할 것 같은데.. 하이라이팅한 구조가어떤 의미를 갖는지.
    • 그냥 function group 은 아닌지(넘나 당연한 결과 인지) 어떻게 해석했는지 좀더 볼것

6. Take away

  • 희소성 비율이 0.4%에 이르는 희소성 문제
  • CYP450 동위효소 상호작용으로 주석이 달린 약물 화합물의 수는 극히 부족
  • CYP 효소 이외의 효소, 경로,  비효소적 메커니즘, 장내 미생물, 개인 간 변이성식품 화합물의 산화 대사에 관여
  • 단순 상호작용 여부 예측문제,  약물-음식 상호작용의 다면적인 특성을 충분히 포착하지 못할 수 있음.
    • 상호작용 강도를 정량화하거나 화합물 간의 상호작용 경로를 모델링하는 방식을 고려
  • FDMine은 구조적으로 유사하지 않은 화합물 쌍을 음성(비상호작용) 예시로 분류
    • 지난친 단순화 지도학습
    •  명확한 문헌적 근거를 바탕이 되거나 문제 재구성 필요
  • CS 기반 논문으로 모델에 치중, CYP 생물학적 도메인 고려한 모델 및 해석을 녹여 발전시켜볼 수 있겠음.
  • CYP와 연관없는 약물도 있다.