스캐터랩 (이루다)

scatter-lab

스캐터랩 (이루다)의 엔지니어링 블로그. 매시간 RSS로 자동 수집해요.

원문 사이트 ↗📡RSS

3

전체

+0

이번 주

최신

AI / ML·스캐터랩 (이루다)·3주 전
유저와 함께 만드는 LLM 2편 — 제타에 Online Learning 도입하기
스캐터랩 ML팀이 자체 LLM 서비스 '제타'에 GRPO 기반 온라인 강화학습을 도입한 과정을 다룬다. DPO는 기존 선호 데이터 분포 내 학습에 그치지만, GRPO는 모델 생성 응답을 리워드 모델이 실시간 평가해 분포 밖 탐색이 가능하다. 단순 알고리즘 적용이 아니라 비동기 인프라 설계, 확률 불일치 보정(TIS), reward hacking 해결까지 세 가지 도전을 통합한 결과, A/B 테스트에서 DPO 대비 이용시간과 리텐션 모두 유의미하게 개선됐다.
#grpo#online-learning#rlhf+2
AI / ML·스캐터랩 (이루다)·2개월 전
유저와 함께 만드는 LLM — 제타에 Preference Optimization 도입하기
엔터테인먼트 LLM 의 재미를 향상하기 위한 선호도 데이터 수집의 어려움.
#llm#performance#preference-optimization+3
보안·스캐터랩 (이루다)·2023년
2022 개인정보 가명·익명처리 기술 경진대회 참여 후기
개인정보를 활용하려면 재식별 위험을 낮추면서도 분석에 쓸 수 있는 유용성을 유지해야 한다.