Prefix-Tuning: Optimizing Continuous Prompts for Generation
https://arxiv.org/abs/2101.00190
2021, arxiv cs, 5793 citation
llm의 학습 전략중 하나로써 할루시네션을 제어하기위한 수단으로 사용할 수 있을까하여 읽게되었다.

1. Problem
- 모델 전체 파라미터를 업데이트해야 함 → 메모리/저장 비용 매우 큼
- 태스크별로 모델 전체를 따로 저장해야 함 → 확장 안 됨
2. Related Work
| Fine-tuning | 모든 파라미터 업데이트 | 저장/계산 비용 큼 |
| Adapter-Tuning | 각 층 사이에 작은 모듈만 학습 (약 2~4%) | 여전히 꽤 많은 파라미터 필요 |
| Prompting / In-context learning | 지시문을 입력 앞에 붙여 LLM을 유도 | 지시는 discrete token에 한정됨, 표현력 약함 |
3. Idea
- LLM 고유의 파라메터는 고정하면서 fine-tuning을 대체할 수 있는 방안 을 제안
- 작고 연속적인 task specific vector(prefix) 를 삽입해 최적화하는 방법
- 결과적으로 0.1%의 파라미터가 견줄만한 성능을 보임.
4. Materials & Methods

problem statement
1. context x + output y 을 input
- Table-to-text:
x 는 선형화된 테이블 데이터,
는 그 테이블을 설명하는 텍스트 문장이다. - Summarization:
는 기사와 같은 긴 문서,
는 그에 대한 짧은 요약문이다.
2. intuition
Prompt 문장으로 모델의 출력을 유도하는 방식에서 착안하여,
실제 텍스트 대신 학습 가능한 연속 벡터(prefix)를 사용함으로써
마치 프롬프트를 제공하는 것과 같은 효과로 모델의 생성 방향을 제어한다.
2.1 예를 들어, 우리가 모델이 “Obama”라는 단어를 생성하길 원한다면, 입력 앞에 “Barack” 같은 연관 단어를 붙여주면, 모델은 “Obama”를 생성할 확률을 더 높게 만든다.
2.2 자연어 지시문(예: “다음 테이블을 한 문장으로 요약하시오”)은
사람에게는 명확하지만, 대부분의 사전학습 언어모델은 이를 제대로 활용하지 못한다.
-> 따라서 기계어 지시문을 넣는 것,연속 임베딩(prefix) 은 Transformer의 모든 계층으로 전파
3. method
autoregressive LM to obtain z = [PREFIX;x;y]
prefix 파라미터 θ\theta 만 학습 가능

학습이 완료되면, 이 재파라미터화에 사용된 MLP 파라미터들은 버려질 수 있으며, prefix Pθ 만 저장
- (저차원 prefix seed) 를
- MLP를 이용해 고차원으로 매핑 (seed → 실제 prefix 변환기)
