Dr.GRPO를 직접 발명할 수도 있었다

2025년에 등장한 Dr.GRPO는 GRPO의 편향 문제를 수정한 언어 모델 강화학습 알고리즘이다. 이 글은 REINFORCE(1992)부터 Dr.GRPO까지 각 알고리즘이 전임자의 결함을 어떻게 해결하는지 순차적으로 유도하며, 독자가 '직접 발명할 수 있었다'는 관점에서 전개한다. 수식보다 직관을 강조하면서도 기술 정밀도를 유지한다.

핵심 포인트

REINFORCE → Actor-Critic → GAE → TRPO → PPO → RLHF → GRPO → Dr.GRPO 순으로, 각 알고리즘이 전임자의 한계를 구체적으로 개선하는 흐름을 따른다.
GRPO는 Critic 네트워크를 제거하고 G개 rollout의 그룹 통계(평균·표준편차)로 advantage를 계산해 메모리를 대폭 절감한다.
Dr.GRPO가 발견한 GRPO의 두 편향: 길이 정규화(짧은 답 유도)와 난이도 정규화(쉬운 문제 우선).
Dr.GRPO의 해법은 두 정규화 항을 모두 제거하고 평균 중심화 advantage를 응답 길이·난이도와 무관하게 균등 적용하는 것이다.
현대 LLM 훈련은 수학적 보장보다 실용적 확장성을 택한 엔지니어링 영역임을 논문이 명시한다.

상세 정리

REINFORCE 기초: log-probability trick으로 기댓값 미분을 수치 안정적으로 계산. '잘 된 것은 강화, 안 된 것은 억제'하는 원리. 단점은 높은 분산과 on-policy 제약.
Actor-Critic: Critic이 가치 함수를 추정해 advantage(reward - baseline)를 계산함으로써 분산을 줄인다. 단점은 Critic 학습 비용 추가.
GAE: 람다 파라미터로 TD(저분산·고편향)와 Monte Carlo(무편향)를 지수 가중으로 보간해 샘플 활용 효율을 높인다.
TRPO: 중요도 샘플링으로 on-policy 제약을 우회하고, KL divergence 하드 제약으로 정책 드리프트를 방지한다. 단점은 Fisher Information Matrix 연산 비용.
PPO: 하드 제약 대신 비율을 [1-ε, 1+ε]로 clipping하는 surrogate objective 사용. 2차 최적화 불필요로 실용성 대폭 향상.
RLHF: SFT → 보상 모델 학습 → RL 최적화 3단계 파이프라인. 동결된 reference 모델 대비 KL 페널티를 추가해 정책 드리프트를 전역에서 제한.
GRPO: Critic을 G개 rollout의 그룹 통계(mean, std)로 대체. 전체 trajectory에 단일 스칼라 advantage 적용해 Critic 제거로 메모리를 대폭 절감.
GRPO 편향 1(길이 정규화): trajectory 길이로 나누면 정답에서는 짧게, 오답에서는 장황하게 답하도록 잘못된 incentive가 생긴다.
GRPO 편향 2(난이도 정규화): 표준편차로 나누면 분산이 낮은 쉬운 문제에 더 큰 가중치가 부여돼 어려운 문제 학습이 불리해진다.
Dr.GRPO 해법: 길이·난이도 정규화 항을 모두 제거하고 mean-centered advantage를 균등 적용. 수식이 단순해지면서 두 편향이 동시에 제거된다.
역사적 맥락: 각 알고리즘 전환이 '전임자의 결함 → 자연스러운 개선'으로 설명 가능하다는 점이 핵심 메시지. 수식보다 직관적 유도 방식을 택해 접근성을 높였다.