BioNLP(T10316101-01) Lec08. Tokenization

수업내용을 요약한 것임을 밝힙니다.

take home message: LLM을 그대로 갖다 쓰기전에 tokenization 구성을 확인해보는 습관이 필요하다.
일반 도메인에서 이미 SOTA를 달성해서 생의학 어휘에 대한 Tokenization 연구가 축소됨.

llm이나 transformer 모델을 쓰면 허깅페이스에서 불러올 4개의 모듈을 사용하게 될 것임.

1. tokneizer

2.language model

3. downstream task

4. loss objective

먼저, tokenization 여러 알고리즘을 확인함.

1. Tokenization

긴 문자열을 언어 모델이 처리할 수 있는 작은 단위(token)의 시퀀스로 바꾸는 과정

정수 ID 시퀀스로 변환해 신경망의 Embedding 층에 넣기 전 전처리 단계

희귀어, 다국어, 도메인 특화 용어에도 잘 표현하는 것이 목표임.

1. Word Based Tokenization

2. Character Based Tokenization

3. Sub-word Based Tokenization

- Byte-Pair Encoding(BPE) : 데이터 압축하는 cs 에서 따옴

- Word Piece

- Unigram

- Sentence Piece

- Byte-level BPE: GPT-2, LLaMA 등 최신 LLM에 사용

: sub-word 또는 Byte level의 토크나저를 사용하고 있다.

방법: ex lower, lowest

장점:

단점:

장점:
- 우도를 고려해, 비교적 언어 모델에 유리한 wub-word 구성
- BERT, RoBERT 등 중 모델에 널리 사용되며 성능이 검증된 바
단점
- 훈련 과정 복잡성과 구현 의존성 존재
- 영어 기준으로 설계된 경우가 많아, 한국어,중국어 등에 그대로 사용하기 어려움

2.4.SentencePiece Tokenization

BioNLP(T10316101-01) Lec07. Sequence Models & Attention Mechanism (0)	2025.11.13
BioNLP(T10316101-01) Lec08. Transformers and other LM Variants (0)	2025.11.07

Bioinfomatics