대규모 언어 모델(LLM)은 단순히 데이터 규모만으로 완성되지 않는다. 실제 서비스에 사용되는 LLM은 여러 단계의 학습 파이프라인을 거쳐 점진적으로 성능이 개선된다.

대표적인 흐름은 다음과 같다.

flowchart LR
    A[Pre-training<br/>사전 학습] --> B[SFT<br/>Supervised Fine-Tuning]
    B --> C[RLHF<br/>Reinforcement Learning<br/>from Human Feedback]
    C --> D[RLVR<br/>Reinforcement Learning<br/>from Verifiable Rewards]

    A:::stage
    B:::stage
    C:::stage
    D:::stage

Pre-training → SFT (Supervised Fine-Tuning) → RLHF (Reinforcement Learning from Human Feedback) → RLVR (Reinforcement Learning from Verifiable Rewards)


1. 사전 학습 (Pre-training)

언어 모델의 기본기

사전 학습은 LLM의 언어 이해 능력과 일반 지식을 형성하는 단계다. 대규모 코퍼스를 기반으로 다음 토큰을 예측하는 방식으로 학습한다.

모델은 이 단계에서 다음을 학습한다.

한계점도 명확하다.