개인화와 실험에 스택을 분리하는 이유

개인화와 실험은 둘 다 사용자 특성으로 동적 최적화를 한다는 점에서 닮았지만, Spotify는 이 둘을 의도적으로 분리해 운영한다. 개인화는 ML 스택에서 만들고 평가는 별도 실험 플랫폼 Confidence에서 한다는 관심사 분리 전략과 그 근거를 다룬다.

핵심 포인트

맥락적 밴딧처럼 개인화와 실험은 기술적으로 겹쳐 보이지만 요구하는 인프라가 저지연 추론과 통계적 엄밀성으로 달라 하나의 도구로 합치면 양쪽 다 타협된다.
Spotify는 실험에 멀티암드 밴딧을 쓰지 않는다. 단일 지표 최적화와 수주 지연되는 핵심 메트릭, 요일별 행동 편향 때문에 밴딧 가중치 갱신이 맞지 않는다.
이론적으로 우월하지만 복잡한 도구보다 신뢰할 수 있는 A/B 테스트가 더 큰 가치를 준다는 게 결론이다.
모바일 앱 홈 화면 하나에서만 작년 520개 실험이 돌았고 전사 300개 이상 팀이 동시에 수천 개 실험을 운영한다.

상세 정리

유사성: 맥락적 밴딧은 사용자 특성으로 최적 처리를 고르므로 개인화와 본질이 같고 둘 다 동적 최적화를 한다.
통합의 문제: 개인화는 저지연 특성 접근과 실시간 수집과 빠른 추론이, 실험은 통계적 엄밀성과 다중 메트릭과 대규모 동시 실행이 필요해 요구 조건이 상반된다.
밴딧 기각 1: 대부분 밴딧이 단일 지표만 최적화하지만 실제론 단기 참여와 장기 만족처럼 상충하는 목표를 균형 있게 봐야 한다.
밴딧 기각 2: 다중목표 밴딧은 존재해도 팀이 복잡한 정책을 정의하기 어려워 채택이 저조하다.
밴딧 기각 3: 유지율과 청취 행동 같은 핵심 메트릭은 수주 지연돼 밴딧의 실시간 가중치 갱신과 맞지 않고 요일별 행동 차이로 신뢰도도 떨어진다.
아키텍처 분리: ML 스택은 추천을 서빙하고 Confidence는 그 추천 시스템을 A/B로 평가한다. 맥락적 밴딧은 ML 스택 안의 개인화 기능이지 실험 방법이 아니다.
통합 방식: ML 플랫폼과 Confidence는 API로 밀접히 연동되고 광고와 인앱 메시지 같은 외부 시스템도 유사하게 연결되며 초기 설정 후 팀은 Confidence UI에서 작업한다.
설계 원칙: 실험 방법론은 단순하고 검증된 방식을 고수해 팀 채택과 숙련을 우선하고 팀이 늘어도 인프라 복잡도가 선형으로만 늘게 설계했다.
규모: 홈 화면 520개 실험과 동시 58개 팀, 전사 300개 이상 팀이 수천 개 실험을 동시에 운영한다.
한계: 이 전략은 대규모 조직을 전제하고 다중 메트릭의 다중비교 문제 처리나 풍부한 특성 집합 유지 비용은 상세히 다루지 않는다.