Spotify의 배경 코딩 에이전트 Honk 시리즈 4편으로, 대규모 데이터셋 마이그레이션을 에이전트로 자동화한 사례다. 핵심 결론은 에이전트 효율이 결국 데이터 생태계의 표준화와 자동 검증 기반에 좌우된다는 것이다.
핵심 포인트- 직접 다운스트림 파이프라인 약 1,800개와 수천 개의 간접 파이프라인을 6개월 안에 마이그레이션해야 했고 수동으로는 약 10 엔지니어링주가 들 규모였다.
- BigQuery Runner, dbt, Scio 세 프레임워크가 섞여 있었고 이 중 Scio는 팀별 편차가 커 자동화를 포기했다.
- 사람용 마이그레이션 가이드를 Claude가 재구성하게 한 자동 컨텍스트 생성은 정보가 부족해 필드 매핑 오류가 잦았다.
- 표 형식으로 필드 매핑을 명시한 수작업 컨텍스트로 전환하자 dbt와 BigQuery Runner 대상에서 240개의 자동 마이그레이션 PR을 성공적으로 냈다.
상세 정리- 배경: 6개월 기한에 1,800개 직접 파이프라인과 수천 개 간접 파이프라인이 걸려 있었고 수동 진행은 약 10 엔지니어링주로 추정됐다.
- 대상 파악: Backstage의 엔드포인트 lineage 플러그인으로 다운스트림 소비자를, Codesearch로 대상 레포를 식별하고 Fleetshift로 마이그레이션을 오케스트레이션했다.
- Scio 포기: 프레임워크 유연성이 커 팀마다 구현이 크게 달라, 모든 변형을 포괄하는 프롬프트 작성이 불가능하다고 판단해 자동화 대상에서 제외했다.
- 자동 컨텍스트 실패: 인간용 가이드를 그대로 재구성시키자 컨텍스트가 부족해 필드 매핑이 자주 틀렸다.
- 컨텍스트 엔지니어링: 모든 필드 매핑을 표로 명시하고 판단이 필요한 필드는 바꾸지 않고 인간 가이드 링크를 주석으로 달았다.
- 실행 격리: Honk는 Claude Skills나 MCP를 쓰지 않고 주어진 컨텍스트에만 접근하도록 제한했다.
- 도구 분업: Backstage가 lineage 시각화와 Codesearch 통합을, Fleetshift가 PR 생성·모니터링·진행 UI를, Honk가 실제 코드 변환을 맡았다.
- 결과: dbt와 BigQuery Runner 대상으로 240개 PR을 자동 생성하고 배포했다.
- 한계: 두 프레임워크의 레포 대부분이 빌드 타임 단위 테스트가 없어 Honk의 자동 검증이 불가능했고 다운스트림 팀의 수동 테스트에 의존해야 했다.
- 향후: JIRA 티켓과 문서를 자동으로 읽는 컨텍스트 수집 기능, 데이터 생태계 표준화, 레포 전반의 테스트·검증 요구 강제를 계획한다.
왜 읽나코딩 에이전트로 대규모 마이그레이션을 자동화하려는 데이터 플랫폼 엔지니어에게 컨텍스트 엔지니어링과 검증 기반의 중요성을 실증으로 보여준다.