대규모 언어 모델(LLM)은 단순히 데이터 규모만으로 완성되지 않는다. 실제 서비스에 사용되는 LLM은 여러 단계의 학습 파이프라인을 거쳐 점진적으로 성능이 개선된다.
대표적인 흐름은 다음과 같다.
flowchart LR
A[Pre-training<br/>사전 학습] --> B[SFT<br/>Supervised Fine-Tuning]
B --> C[RLHF<br/>Reinforcement Learning<br/>from Human Feedback]
C --> D[RLVR<br/>Reinforcement Learning<br/>from Verifiable Rewards]
A:::stage
B:::stage
C:::stage
D:::stage
Pre-training → SFT (Supervised Fine-Tuning) → RLHF (Reinforcement Learning from Human Feedback) → RLVR (Reinforcement Learning from Verifiable Rewards)
사전 학습은 LLM의 언어 이해 능력과 일반 지식을 형성하는 단계다. 대규모 코퍼스를 기반으로 다음 토큰을 예측하는 방식으로 학습한다.
모델은 이 단계에서 다음을 학습한다.
한계점도 명확하다.