pile·
AI / ML·루닛루닛·

Dr.GRPO를 직접 발명할 수도 있었다

2025년에 등장한 Dr.GRPO는 GRPO의 편향 문제를 수정한 언어 모델 강화학습 알고리즘이다. 이 글은 REINFORCE(1992)부터 Dr.GRPO까지 각 알고리즘이 전임자의 결함을 어떻게 해결하는지 순차적으로 유도하며, 독자가 '직접 발명할 수 있었다'는 관점에서 전개한다. 수식보다 직관을 강조하면서도 기술 정밀도를 유지한다.

핵심 포인트
  • REINFORCE → Actor-Critic → GAE → TRPO → PPO → RLHF → GRPO → Dr.GRPO 순으로, 각 알고리즘이 전임자의 한계를 구체적으로 개선하는 흐름을 따른다.
  • GRPO는 Critic 네트워크를 제거하고 G개 rollout의 그룹 통계(평균·표준편차)로 advantage를 계산해 메모리를 대폭 절감한다.
  • Dr.GRPO가 발견한 GRPO의 두 편향: 길이 정규화(짧은 답 유도)와 난이도 정규화(쉬운 문제 우선).
  • Dr.GRPO의 해법은 두 정규화 항을 모두 제거하고 평균 중심화 advantage를 응답 길이·난이도와 무관하게 균등 적용하는 것이다.
  • 현대 LLM 훈련은 수학적 보장보다 실용적 확장성을 택한 엔지니어링 영역임을 논문이 명시한다.
상세 정리
  • REINFORCE 기초: log-probability trick으로 기댓값 미분을 수치 안정적으로 계산. '잘 된 것은 강화, 안 된 것은 억제'하는 원리. 단점은 높은 분산과 on-policy 제약.
  • Actor-Critic: Critic이 가치 함수를 추정해 advantage(reward - baseline)를 계산함으로써 분산을 줄인다. 단점은 Critic 학습 비용 추가.
  • GAE: 람다 파라미터로 TD(저분산·고편향)와 Monte Carlo(무편향)를 지수 가중으로 보간해 샘플 활용 효율을 높인다.
  • TRPO: 중요도 샘플링으로 on-policy 제약을 우회하고, KL divergence 하드 제약으로 정책 드리프트를 방지한다. 단점은 Fisher Information Matrix 연산 비용.
  • PPO: 하드 제약 대신 비율을 [1-ε, 1+ε]로 clipping하는 surrogate objective 사용. 2차 최적화 불필요로 실용성 대폭 향상.
  • RLHF: SFT → 보상 모델 학습 → RL 최적화 3단계 파이프라인. 동결된 reference 모델 대비 KL 페널티를 추가해 정책 드리프트를 전역에서 제한.
  • GRPO: Critic을 G개 rollout의 그룹 통계(mean, std)로 대체. 전체 trajectory에 단일 스칼라 advantage 적용해 Critic 제거로 메모리를 대폭 절감.
  • GRPO 편향 1(길이 정규화): trajectory 길이로 나누면 정답에서는 짧게, 오답에서는 장황하게 답하도록 잘못된 incentive가 생긴다.
  • GRPO 편향 2(난이도 정규화): 표준편차로 나누면 분산이 낮은 쉬운 문제에 더 큰 가중치가 부여돼 어려운 문제 학습이 불리해진다.
  • Dr.GRPO 해법: 길이·난이도 정규화 항을 모두 제거하고 mean-centered advantage를 균등 적용. 수식이 단순해지면서 두 편향이 동시에 제거된다.
  • 역사적 맥락: 각 알고리즘 전환이 '전임자의 결함 → 자연스러운 개선'으로 설명 가능하다는 점이 핵심 메시지. 수식보다 직관적 유도 방식을 택해 접근성을 높였다.
왜 읽나LLM 강화학습(RLHF·GRPO 계열) 원리를 직관적으로 이해하고 싶은 ML 엔지니어나 연구자에게, 알고리즘 진화 맥락과 Dr.GRPO의 편향 수정 논리를 빠르게 파악할 수 있는 레퍼런스다.
루닛
루닛 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. AI / ML·인프랩 (인프런)인프런 (인프랩)·

    학습 에이전트 — AI 두뇌 구축하기

    인프런이 강의 학습 에이전트를 구축하며 겪은 기술 스택 선정, 컨텍스트·도구 설계, LLM-as-a-Judge 품질 개선, 비용 최적화 전략을 다룬다. LLM SSE 스트리밍 처리를 위해 Spring MVC + Virtual Thread + Spring AI를 선택하고, 명시적 프롬프트 캐싱으로 입력 토큰을 90% 절감하는 과정까지 실전 경험이 담겨 있다.

    #ai-agent#llm#llm-as-a-judge+2
  2. AI / ML·네이버 D2네이버 D2·

    AI 에이전트 회사 차리기: 설립부터 어디서든 동기화까지

    네이버 ENGINEERING DAY 2026 발표. Claude Code를 매일 쓰지만 매번 초기화되는 문제를 해결하기 위해 NaverMadCat이라는 다중 AI 에이전트 조직 프레임워크를 구축한 경험을 다룬다. 비서실장 역할의 에이전트가 10개 부서 에이전트를 조율하며, 어느 환경에서 접속해도 동일한 컨텍스트로 동작하도록 동기화 메커니즘을 구현했다.

    #claude-code#multi-agent#ai-agent+2
  3. AI / ML·vercel-blogVercel Blog·

    AI Gateway에서 실시간 음성 에이전트 구축하기

    Vercel AI Gateway가 음성·오디오 기능을 정식 지원한다. 실시간 대화 음성(Realtime Voice), 텍스트→음성(TTS), 음성→텍스트(STT) 세 가지를 기존 텍스트/이미지 모델과 동일한 라우팅·인증·모니터링 체계 위에서 사용할 수 있다. OpenAI gpt-realtime-2·Whisper와 xAI Grok 오디오 모델을 지원하며, AI SDK 7 베타로 제공된다.

    #llm-app#ai-sdk#realtime-voice+2