Computer Science (13) 썸네일형 리스트형 BioNLP(T10316101-01) Lec08. Tokenization 수업내용을 요약한 것임을 밝힙니다.take home message: LLM을 그대로 갖다 쓰기전에 tokenization 구성을 확인해보는 습관이 필요하다. 일반 도메인에서 이미 SOTA를 달성해서 생의학 어휘에 대한 Tokenization 연구가 축소됨. llm이나 transformer 모델을 쓰면 허깅페이스에서 불러올 4개의 모듈을 사용하게 될 것임.1. tokneizer2.language model3. downstream task4. loss objective먼저, tokenization 여러 알고리즘을 확인함. 1. Tokenization 긴 문자열을 언어 모델이 처리할 수 있는 작은 단위(token)의 시퀀스로 바꾸는 과정정수 ID 시퀀스로 변환해 신경망의 Embedding 층에 넣기 전 전처.. BioNLP(T10316101-01) Lec07. Sequence Models & Attention Mechanism 수업 내용을 요약한 것임을 밝힙니다.1. 시퀀스 데이터의 정의 및 학습 방법- 순서가 있다. 시간의 흐름이 있다.- 과거를 보고 미래를 예측해야 됨. 2.LSTM- cell state + 3 gate- 입력, 망각, 출력 게이트- 장기기억에 강하다.- 그러나 느리고 구조가 복잡하다. LSTM의 발전 : biLSTM -> RNN -> Transformer 3. Attention 구조의 이해3.1. Search Engin:query: 사용자가 입력한 검색어(벡터)key: 특징 벡터value: key에 매핑된 실제 콘텐츠-> 병렬 연산이 가능해 빠르다. 3.2. Attention mechanism-attention: 유사도를 계산해 가중합하는 것-self-attention:ㄴ 단일 시퀀스 내 모든 토큰간의 상.. BioNLP(T10316101-01) Lec08. Transformers and other LM Variants 수업 내용을 요약한 것임을 밝힙니다.1. Transforemr의 핵심 구조1.1. encoder역할: 입력 입장의 의미를 인코딩(Contextualized Representation)- 의미를 이해하는 것에 초첨핵심 모듈:- self-attention: 문장 내 단어 간의 관계를 학습하고- feed forward layer: 문맥이 반영된 벡터 표현형 생성1.2. decoder역할: 출력 문장 생성핵심 모듈 - Masked Self Attention & Shifted right하나의 문장을 shfted right 방식으로 마스킹된 문장들로 생성이를 서로 독립적으로 parallel하게 하나의 배치로 학습함.단점) 배치간의 상호맥락 파악이 어렵다. 그래서 여러 문장을 하나의 시퀀스로 넣어줘야함.여전히 이 모.. 4장 기본 그래프 신경망 4장에서는 [Scarselli et al.,, 2009]에 소개된 모델을 대표로 설명한다. 그래프 신경망 입문그래프 신경망은 최근 딥러닝의 어떤 분야보다도 빠르게 성장하고 있으며 많은 기업에서 이미 서비스에 적용했다. 이 책은 국내에서 그래프 신경망을 전문적으로 소개하는 첫 책이다. 20개 이상www.aladin.co.kr Chater 1. 서론 & Chater 2. 수학 및 그래프 기초 Introduction to Graph Neural Networks에이콘출판주식회사발행 2022년 4월 29일지은이 즈위안 리우/지에 저우옮긴이 정지수 이 카테고리는 '그래프 신경망 입문' 책 내용을 요약하고 추가로 내가 공부한 내용을 정리하는 공간이다.번역본이고 얇은 책인 만큼 1월 안에 다 읽어보려고한다.drug repurposing 주제로 GCN 모델을 사용하면서 좀더 체계적인 틀을 만들고 싶어서, 이 책을 선택하게되었다. 목표는 1. GCN 동작 원리를 암기한다. 이미 여러 차례 이해한 바가 있으나 계속 휘발되어서, 암기로 목표로 잡았다.2. GCN 코드를 이해할 수 있다. base model 을 실습하고 이해할 수 있는 back ground가 될 수 있었으면 한다.3. GCN의 역사(여러 모델).. GNN, GCN, and attention-GCN model GCN 모델을 이용하고 싶은 프로젝트가 생겼는데,다른 프로젝트에 밀려서 공부하면 까먹고 공부하면 까먹는 상황이 반복되고있다.그래서 간략하게 정리하고자한다. 1. GNN여기 기초부터 잘 설명된 블로그이다. : GNN 소개 — 기초부터 논문까지이 글은 Shanon Hong의 An Introduction to Graph Neural Network(GNN) For Analysing Structured Data를 저자에게 허락받고 번역, 각색한 글이다.medium.commatrix 형식으로 데이터를 본다는 점에서 CNN과 비슷하다고 느꼈지만, 큰 차이점은한 그래프가 여러 모양으로 표현될 수 있다는 것이다.때문에 추가적인 aggregation 단계가 필요하다. 네트워크 형태는 adjacency matrix 를 이용.. 자주 사용하는 R 명령어 및 패키지 R 명령어 새로운 워킹 디렉토리 설정하기 : setwd() ex) setwd("C:/Users/00zer/Desktop/scRNAseq-scDEA") 현재 디렉토리 확인하기 : getwd() 패키지가 저장된 경로 확인 및 지정: .libPaths() ex) .libPaths() - 확인 ex) .libPaths("C:/Users/00zer/Desktop/scRNAseq-scDEA/lib") 패키지 install.packages("devtools") # devtools 패키지 설치 library(devtools) install.packages("BiocManager") library(BiocManager) 주의 사항 1. The warning messages you received indicate that.. [tutorial] VirtualBox설치 및 실행하기 22년 11월 25일에 열린 GDA 유전체 데이터 분석 워크숍을 다녀왔다.사전 준비 파일로 ova 파일이 오길래 뭔가 했다. 1. OVAova 는 Open Virtualization Format Archive 로서 가상환경(Vartual Machine. VM) 배포를 위한 표준 파일형태이다.VM 이동을 위해 데이터들을 패키징하고 배포한다. 패킹되는 데이터는 다음과 같다. (TechTarget 참고)nameconfigured memoryCPUstorage settingsnetwork2. VM여기서 VM 이란,물리적 하드웨어 시스템이 구축되어 자체 CPU, 메모리, 네트워크 인터페이스 및 스토리지를 갖추고 있고,가상 컴퓨터 시스템으로 작동하는 가상 환경이다. 하이퍼바이저라 불리는 소프트웨어를 통해 가상 머.. 이전 1 2 다음