AI / ML·
네이버 DnA·
누구나 실험할 수 있도록 — 네이버 검색의 셀프서브 A/B 테스트 플랫폼
네이버 검색은 실험 양과 서비스 복잡도가 늘면서 실무자가 직접 설계·분석까지 끌고 가는 셀프서브 체계가 필요했고, 좁은 검색 지면 위에서 공정하고 다각적인 성과 측정이 요구됐다.
#search#experimentation-platform#ab-testing+2
네이버 검색은 실험 양과 서비스 복잡도가 늘면서 실무자가 직접 설계·분석까지 끌고 가는 셀프서브 체계가 필요했고, 좁은 검색 지면 위에서 공정하고 다각적인 성과 측정이 요구됐다.
대규모 검색 서비스에서 A/B 실험이 전문가의 영역으로 묶여 있으면 의사결정 속도가 떨어지고, 여러 서비스가 사용자 주의를 두고 경쟁할 때 카니발리제이션을 측정하기 어렵다.
RAG 시스템이 LLM Ops의 일부로 들어가면서 어떤 지표로 품질을 측정하고 회귀를 잡을지, 표준화된 평가 방법이 절실해졌다.