pile·
AI / ML·spotify-engSpotify Engineering·

도메인 전문가를 인코딩하다: Spotify 데이터 어시스턴트 컨텍스트 레이어

Spotify는 7만 개 이상의 데이터셋을 보유한 조직에서 자연어 질의를 신뢰 가능한 SQL로 변환하는 데이터 어시스턴트 Vedder를 구축했다. 핵심 문제는 LLM에 스키마만 넣는 방식이 컨텍스트 윈도우 한계와 도메인 지식 공백으로 신뢰할 수 없는 결과를 낳는다는 점이었다. 이를 해결하기 위해 도메인 전문가 지식을 구조화해 인코딩하는 컨텍스트 레이어를 설계했으며, 2025년 8월 출시 이후 2,100명 이상이 13,000건 이상의 대화에서 활용했다.

핵심 포인트
  • 스키마만으론 부족하다: 데이터 품질·정의·사용 패턴 같은 도메인 지식은 스키마에 담기지 않는다.
  • 클러스터 모델은 Datasets·Pairs·Docs 세 컴포넌트로 도메인 지식을 체계화한다.
  • 자동 생성 Q&A 쌍의 87.5%가 전문가 검수에서 탈락했다 — 자동화보다 전문가 큐레이션이 품질을 결정한다.
  • 클러스터마다 건강도 점수를 운영해 전문가가 큐레이션 우선순위를 정할 수 있게 한다.
  • 컨텍스트가 신뢰를 만든다 — 답변의 품질은 그 뒤에 있는 컨텍스트 품질과 동일하다.
상세 정리
  • 배경: Spotify는 7만 개 이상의 데이터셋과 페타바이트 규모의 데이터를 운영한다. 광고·팟캐스트·음악 등 도메인이 다양해 단순 스키마 주입 방식으로는 신뢰할 수 있는 SQL을 생성하기 어렵다.
  • 핵심 한계: LLM에 스키마 정보만 넣으면 컨텍스트 윈도우 한계에 부딪히고, 데이터 품질·용어 정의·올바른 사용 패턴 같은 도메인 암묵지는 스키마에 표현되지 않는다.
  • Vedder 시스템: 자연어 질문을 받아 SQL 쿼리와 함께 신뢰 가능한 데이터를 반환한다. 2025년 8월 출시 후 광고·팟캐스트·음악 등 다양한 도메인에서 2,100명 이상이 13,000건 이상의 대화를 진행했다.
  • 클러스터 모델 개요: 컨텍스트를 클러스터 단위로 관리하며, 각 클러스터는 Datasets·Pairs·Docs 세 컴포넌트로 구성된다.
  • Datasets 컴포넌트: 테이블 풀 스키마, 컬럼 카디널리티, 샘플 값, 파티션 구조를 포함한다. LLM이 실제 데이터 분포와 형태를 이해할 수 있는 기반을 제공한다.
  • Pairs 컴포넌트: 도메인 전문가가 검수한 질문-SQL 예제 쌍을 보관한다. 자동 생성이 아닌 전문가가 유효하다고 승인한 사례만 포함된다.
  • Docs 컴포넌트: 비즈니스 컨텍스트 문서 계층으로, 용어 정의·지표 의미·데이터 사용 패턴 등 스키마에 담을 수 없는 암묵지를 저장한다.
  • 자동화의 한계 수치화: 자동 생성된 Q&A 쌍을 전문가에게 검수시켰을 때 12.5%만 승인됐다. 나머지 87.5%는 "ad-hoc 탐색·디버깅 세션·재질문하지 않을 일회성 쿼리"로 거부됐다. 컨텍스트 스케일링을 자동화만으로 해결할 수 없음을 수치로 증명한다.
  • 건강도 모니터링: 각 클러스터에 건강 점수를 부여한다. 데이터 유효성·스키마 변경·컨텍스트 커버리지·쿼리 재현성을 측정해 전문가가 어느 클러스터를 먼저 보완할지 판단할 수 있게 한다.
  • 설계 철학: "답은 그 뒤에 있는 컨텍스트만큼만 신뢰할 수 있고, 컨텍스트는 지속적인 관리가 필요하다." 조직 데이터를 다루는 AI 시스템에서 인간 전문 지식은 자동화로 대체 불가라는 원칙을 관통한다.
왜 읽나사내 데이터 어시스턴트나 Text-to-SQL 시스템을 설계하는 엔지니어에게, 스키마 주입을 넘어 도메인 지식을 구조화해 LLM 신뢰도를 높이는 실전 아키텍처 레퍼런스.
spotify-eng
Spotify Engineering 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. AI / ML·인프랩 (인프런)인프런 (인프랩)·

    학습 에이전트 — AI 두뇌 구축하기

    인프런이 강의 학습 에이전트를 구축하며 겪은 기술 스택 선정, 컨텍스트·도구 설계, LLM-as-a-Judge 품질 개선, 비용 최적화 전략을 다룬다. LLM SSE 스트리밍 처리를 위해 Spring MVC + Virtual Thread + Spring AI를 선택하고, 명시적 프롬프트 캐싱으로 입력 토큰을 90% 절감하는 과정까지 실전 경험이 담겨 있다.

    #ai-agent#llm#llm-as-a-judge+2
  2. AI / ML·네이버 D2네이버 D2·

    AI 에이전트 회사 차리기: 설립부터 어디서든 동기화까지

    네이버 ENGINEERING DAY 2026 발표. Claude Code를 매일 쓰지만 매번 초기화되는 문제를 해결하기 위해 NaverMadCat이라는 다중 AI 에이전트 조직 프레임워크를 구축한 경험을 다룬다. 비서실장 역할의 에이전트가 10개 부서 에이전트를 조율하며, 어느 환경에서 접속해도 동일한 컨텍스트로 동작하도록 동기화 메커니즘을 구현했다.

    #claude-code#multi-agent#ai-agent+2
  3. AI / ML·vercel-blogVercel Blog·

    AI Gateway에서 실시간 음성 에이전트 구축하기

    Vercel AI Gateway가 음성·오디오 기능을 정식 지원한다. 실시간 대화 음성(Realtime Voice), 텍스트→음성(TTS), 음성→텍스트(STT) 세 가지를 기존 텍스트/이미지 모델과 동일한 라우팅·인증·모니터링 체계 위에서 사용할 수 있다. OpenAI gpt-realtime-2·Whisper와 xAI Grok 오디오 모델을 지원하며, AI SDK 7 베타로 제공된다.

    #llm-app#ai-sdk#realtime-voice+2