GP-GPT: Large Language Model for Gene-Phenotype Mapping
https://arxiv.org/html/2409.09825v1
GP-GPT: Large Language Model for Gene-Phenotype Mapping
GP-GPT: Large Language Model for Gene-Phenotype Mapping Yanjun Lyu Department of Computer Science and Engineering, The University of Texas at Arlington, Arlington, TX 76015, USA Zihao Wu School of Computing, University of Georgia, Athens, GA 30602, USA Lu
arxiv.org
논문을 번역 및 요약합니다.
LLM으로 얻은 임베딩 값이 생물학적 의미가 있는지 어떻게 확인하고 검증했는지 확인하기 위해 살펴본 논문입니다.
본 게시물은 개인적으로 공부한 내용 + 🔹 gpt로 요약한 내용이 있으므로 주의가 필요합니다.
Abastract
사전훈련된 LLM은 자연어 처리에서의 성공으로 의생명학에서 분야에서의 주목이 증가하고 있다. 그러나 다중 소스 유전체 데이터의 복잡한 특성과 이질성은 이러한 모델을 생물정보학 및 생의학 분야에 적용하는 데 있어 상당한 어려움을 야기한다. 이러한 과제를 해결하기 위해 본 연구에서는 유전자-표현형 지식 표현 및 유전체 관계 분석을 위한 최초의 특화된 대규모 언어 모델인 GP-GPT를 제시한다. 본 모델은 여러 대규모 검증된 데이터셋과 학술 논문에서 추출한 유전체학, 단백체학, 그리고 의학 유전학 분야의 300만 개 이상의 용어로 구성된 포괄적인 코퍼스를 기반으로 두 단계에 걸쳐 미세 조정되었다. GP-GPT는 의학 유전학 정보를 정확하게 검색하고 유전체 정보 검색 및 관계 결정과 같은 일반적인 유전체학 분석 작업을 수행하는 데 탁월한 역량을 보여준다. 도메인별 과제에 대한 비교 실험 결과, GP-GPT는 Llama2, Llama3, GPT-4를 포함한 최첨단 LLM보다 우수한 성능을 보였다. 이러한 결과는 GP-GPT가 유전 질환 관련 연구를 향상시키고 유전체학 및 의학 유전학 분야에서 정확하고 효율적인 분석을 촉진할 수 있는 잠재력을 보여준다. 본 연구는 GP-GPT에서 생물 인자 개체의 표현 방식이 미묘하게 변화함을 보여주었으며, 이는 LLM을 유전자 표현형 연구 발전에 적용할 수 있는 가능성을 시사한다.
Introduction
유전자, 표현형, 그리고 질병 간의 관계는 근본적으로 중요하지만 아직 완전히 이해되지 않았다.
유전자, 단백질, 대사체학, 그리고 표현형 간의 복잡한 상호작용(complex interplays)과 상호 조절(mutual regulations among~)로 인해, 이들의 관계를 정확하게 표현하는 방법을 찾는 것이 중요한 문제로 대두되었다. 유전자 돌연변이, 단백체학, 유전자 발현, 전사 조절, 경로 분석, 그리고 임상 관찰과 같은 단일 분자 또는 이중 분자 생물학적 수준에 초점을 맞춘 수많은 연구가 있다. (GWAS, Gene Ontology, HummanNet, OMIM, DisGeNet 등)
이러한 대규모 유전체학 데이터 세트와 관련 연구는 유전자와 질병에 대한 대표적 분석 범위를 크게 확장했으나,
전체 유전체 시스템 규모에서의 전체론적 모델링은 여전히 어려운 과제입니다.
일반 생물의학 분야에 언어 모델을 적용하는 데도 상당한 성공 사례가 있다. ( Ad-autogpt, Clinicalradiobert, ... ) [20, 21, 22, 23, 24, 25].
복잡하고 비정형적인(unstructured) 데이터를 처리하고 분석할 수 있는 LLM의 잠재력은 생물정보학의 오랜 과제(long-standing challenges)를 해결할 수 있는 특별한 기회를 제공한다. 텍스트에서 복잡한 관계(intricate relationships)와 맥락을 포착하는 LLM의 능력은 유전 및 표현형 데이터의 복잡성과 잘 부합한다. 이러한 시너지는 지식 발견, 가설 생성, 그리고 이전에는 알려지지 않았던 유전자-질병 연관성 규명에 새로운 길을 열어준다.
본 연구에서는 앞서 언급한 문제를 유전자-표현형 대규모 언어 모델인 GP-GPT에 기반한 AI 기반 시스템으로 변환하는 데 중점을 둔다. GP-GPT의 주요 목표는 다양한 구조화 및 비구조화 유전체 지식 소스를 일반적인 LLM 프레임워크로 통합하는 것이다. 특히, 이 모델은 OMIM, DisGeNET, dbGaP 등 다양한 주요 데이터 소스에서 추출된 구조화 및 비구조화 데이터를 모두 활용한다. 데이터를 생물 텍스트로 변환하여 유전자 개체, 유전자 기능, 단백질 개체, 단백질 기능, 표현형 개체, 유전자형-표현형 연관 분석, 그리고 관련 생물학적 기전을 식별하고 분류했습니다. 이러한 구성 요소들은 정보적 맥락에 통합되었고, 이는 이후 생성 언어 모델 형태로 GP-GPT를 개발하는 데 사용되었습니다. 따라서 이 모델은 여러 수준의 생물학적 요인을 고려하고 개별적인 관계가 아닌 전체 유전체 시스템에 대한 지식 매핑을 달성합니다.
저희가 아는 한, 최초로 다층 유전체학 데이터에 대규모 언어 모델을 적용했습니다( For the first time, as far as we know, we applied ~). 본 연구는 유전 및 표현형 데이터 분석 분야에서 세 가지 중요한 자연어 처리(NLP) 과제에 중점을 둔다. 첫째, 모델의 질의응답 능력을 살펴보고, 의학 유전학 분야의 복잡한 질문에 정확한 답변을 제공하는 능력을 평가한다. 둘째, 유전체 정보 검색 성능, 특히 관련 유전자 또는 표현형을 식별하는 능력을 평가했다. 마지막으로, 모델의 관계 결정 능력을 검토하고 주어진 맥락에서 유전자형과 표현형 간의 관계를 정확하게 식별하는 능력을 평가했다. 이러한 과제는 언어 모델이 유전체학 데이터에 대한 이해와 해석을 향상시켜 의학 유전학 분야의 발견을 가속화할 수 있는 잠재력을 평가하기 위해 설계되었다. 벤치마크 언어 모델 대비 GP-GPT의 여러 지표에서 더 나은 성능을 확인했다. 따라서 GP-GPT를 사용하면 중요한 의학적 유전학 정보(예: 분자 이름, 기능, 상호작용, 질병 연관성)를 간단하고 빠르게 검색할 수 있다.
또한, GP-GPT는 유전체학 지식 그래프를 간접적으로 인코딩합다. 특히 표현형/질병 유전자 매핑의 경우, 이 모델은 사용자가 제공한 문헌 기반 유전체학 질문을 기반으로 신뢰할 수 있는 답변을 생성하는 것 이상의 기능을 수행했다. 흥미롭게도, 유전자 임베딩과 표현형/질병 임베딩의 분포를 관찰했다. 벤치마크 언어 모델과 비교했을 때, 본 연구에서 제안한 GP-GPT는 모델 심도와 학습 진행 측면에서 유전체 개체를 더 효율적으로 인코딩한다. 잠재 임베딩의 이러한 통합 및 균형은 유전자-표현형 관계 쌍과 유전자-질병 조직 분포 측면에서 관찰될 수 있었다. 결과는 GP-GPT에서 학습된 유전체 정보 표현이 전체론적 인간 유전체학 지식 그래프를 지원하고 정량적 연관 분석에서 사전 확률을 제공하는 강력한 지식 인식 시스템으로 기능할 수 있는 잠재력을 가지고 있음을 보여준다.
2 Related Work
2.3Language Model Applications in Bioinformatics
notable examples including AlphaFold2 [43], AlphaFold3 [44], GeneGPT [45], BioT5 [46], BioT5+ [47], and Med-Gemini [48].
1. GeneGPT [45] 는 미국 국립생명공학정보센터(NCBI)의 웹 API를 활용하여 유전체학 관련 질문에 답할 수 있도록 대규모 언어 모델(LLM)을 학습시키는 새로운 방법을 소개
2. SciBERT는 Semantic Scholar의 과학 출판물을 기반으로 사전 학습되었으며, 주로 WordPiece 비지도 학습 토큰화 기법을 사용
3. ClinicalBERT는 임상 기록을 학습 데이터로 사용하여 BERT 기반 아키텍처를 기반으로 구축된 사전 학습된 모델입니다. 임상 기록의 유형에는 간호, 영상의학 등
4. SciFive는 수백만 개의 PubMed 초록과 PMC 과학 출판물을 기반으로 사전 학습된 T5 기반 생성 모델. 이 모델은 질의응답 및 개체명 인식과 같은 생물의학 작업 처리에 탁월하며, BioBERT, T5, BERT와 같은 모델보다 우수한 성능을 보임
5. BioGPT는 1,500만 개의 PubMed 논문을 기반으로 사전 학습된 GPT-2 기반 모델로, GPT에서 영감을 받은 최초의 생물의학 프레임워크 중 하나. 당시 해당 분야에서 우수한 성능을 보인 모델 중 하나.
..
그외 다양한 LLM모델과 application을 설명하고 있다.
3 Method
* 입력 텍스트 데이터의 구조는 Llama 모델에서 제공하는 표준 명령어 미세 조정 가이드 형식을 따르고있다.
trianing step1. instruction mask training
기초적인 언어 이해 및 생물학 개체 예측 능력 학습을 위한 단계
🔹 데이터 구성:
- 데이터 출처: dbGaP
- 포함 개체: 유전자 / 질병 / 표현형
- 입력: 마스킹된 문장 (예: gene TPT1P13 have variant in <mask>)
- 출력: 마스킹을 복원한 정답 문장 (예: Body Weight)
- 형식:
- ### Instruction: 역할 설명
- ### Input: 마스킹된 문장
- ### Output: 복원된 정답
🔹 핵심 기능:
- 명령어 기반 학습(prompt-based learning)
- 문맥 기반 키워드 복원 (언어모델 pretraining 유사 방식)
training step2. gene-protein contexts
1. gene-protein
-코딩 유전자-유전자 기능이 주어진 단백질의 기능 식별
-코딩 유전자-유전자 생성물을 식별
2. protein-function
- 단백질개체와 그 기능을 모두 공식화, 단백질 객체 식별
3. gene-function
- 유전자 개체와 그 기능을 공식화, 기능을 기반으로 윤전자 객체 식별
- 입력 정보:
- 유전자명, 유전자 기능, 단백질명 등
- 출력 정보:
- 단백질의 기능, 생성물 정보 또는 유전자의 기능 등
- 구성 형식:
- "작업 프롬프트" + "입력 텍스트" + "예상 출력"
🔹 핵심 기능:
- 단일 또는 복합 생물학 개체 간 관계 추론
- 유전자 및 단백질의 기능적 역할에 대한 이해 학습
training step3. gene-protein-phenotype/disease contexts
삼중 생물학 개체 간의 복잡한 관계 학습
(유전자–단백질–표현형/질병 간의 고차 추론)
🔹 데이터 구성:
- 구성 요소:
- 유전자, 단백질, 표현형/질병 간 삼중 관계
- 세부 관계 유형:
- 단백질–분자 특징: 단백질과 표현형/질병의 분자적 연관성
- 단백질–병인 특징: 단백질, 표현형, 병인 메커니즘 + 생물 경로
- 유전자–유전 특성: 유전 정보 기반 유전자–질병 연관성
- 양의 쌍 + 음의 쌍을 모두 포함하여 학습 성능 향상 유도
🔹 핵심 기능:
- 고차 생물학 정보 통합
- 질병의 원인 및 분자기전 해석 능력 강화
Construction of the Multi-task and Multi-level Genomics Training Corpus
예시 학습 샘플:
### Instruction:
You are a bioinformatic expert. Fill in the masked part.
### Input:
gene TPT1P13 have variant in intergenericrelated with <mask> <mask> <mask>
### Output:
gene TPT1P13 have variant in intergenericrelated with Body Weight
- 입력 문장(input)은 단순한 마스킹 문장
- 출력은 문맥에 기반해 가장 자연스럽고 논리적인 복원(supervised learning : Body Weight )
- 학습 중 수천~수만 개의 이런 포맷을 보면서, "이런 문맥이면 여기엔 표현형이 들어가야겠구나" 라는 추론 규칙을습득
Gene-Phenotype Embedding
figure8. fine-tuning이 적용된 모델에서는 특히 질병 표현형의 임베딩 분포가 더 넓게 퍼지는 경향을 확인
figure9. 파란색 원은 식별된 뉴런 관련 조직 클러스터를 나타내며, 더 나은 표현을 효과적으로 포착하고 있다.(?? 이걸로 어떻게 해석할수있다는 것인지 정량화된 지표가 부족한게 아닌가)
유전자와 표현형/질병 개체를 두 가지 종류의 생물학적 요소(bio-factors)에 대하여
LLM이 이러한 생물학 개체를 얼마나 잘 표현(representation)했는지 임베딩 결과를 생성 및 평가하기위해 다음과 같이 수행.
- 유전자 및 질병 개체의 설명(summaries)을 문장 형태로 구성, 그 문장을 모델에 입력하여 문장 임베딩(sentence embedding)을 생성
ex. "VPS41 is a gene that plays a role in endosomal transport..."
"A1ATD is a disease caused by alpha-1 antitrypsin deficiency..."
- 사전학습 상태(zero-shot)(아마 base 상태)와 fine-tuned 상태 모두에서 시각화되어 비교
- Zero-shot 상태에서는 모델 내부 hidden layer의 출력값들 중 일부에서 임베딩을 추출(아마 figure 9,10와 같은 시각화를 위해서)
- fine-tuning이 적용된 모델에서는,
기존 모델의 층 출력과 함께 LoRA(경량 어댑터) 모듈을 통해 수정된 hidden representation을 함께 사용하여 문장 임베딩을 구성
- 이렇게 얻은 임베딩을 2D로 시각화하기 위해 UMAP을 사용
🔹 요약하면?
GP-GPT 등 instruction-tuned LLM은 BioBERT의 "도메인 특화 표현학습" 개념을 확장하여, task-aware 학습과 LoRA 기반 fine-tuning을 접목한 최신 버전이라 볼 수 있습니다.