AI / ML·
스캐터랩·
유저와 함께 만드는 LLM — 제타에 Preference Optimization 도입하기
문제엔터테인먼트 LLM 의 재미를 향상하기 위한 선호도 데이터 수집의 어려움.
접근DPO(Direct Preference Optimization) 알고리즘과 사용자 재생성 신호 필터링으로 preference pair 구성.
결과1차 사이클에서 주간 이용 시간 8.1% 상승, Week 1 리텐션 1.19%p 증가. 2차 사이클에서 추가 3.27% 이용 시간 증가.
#llm#performance#preference-optimization+3