개발자 없이 5분 만에 버그를 고친 QA, 우리가 설계한 것과 설계하지 않은 것

여기어때 광고센터가 AI 코딩 에이전트를 개인 도구에서 팀 플러그인(code-forge), 다시 비개발자도 Slack 에서 쓰는 앱(Anvil)으로 키운 과정을 다룬다. 핵심은 "더 좋은 프롬프트"가 아니라 "누가 작업하든 같은 코드 품질이 나오는 환경(하네스)을 먼저 설계하는 것"이 진짜 문제였다는 점이다.

핵심 포인트

규칙 파일을 git 으로 공유하니 팀원마다 버전이 달라 같은 요청에 다른 결과가 나오는 동기화 문제가 터졌다.
code-forge 는 /setup 하나로 스택을 자동 감지해 hooks·AI 가이드·접근 제어 3층을 입히는 Claude Code 플러그인이다.
프롬프트는 무시할 수 있어도 hooks 는 시스템이 강제해, 에이전트가 우회해도 lint·위험 명령 차단이 매번 실행된다.
Anvil 은 code-forge 위에 Slack 인터페이스를 얹어, 비개발자도 같은 품질 게이트를 거쳐 코드를 수정하게 한다.
단순 수정은 바로 구현, 정책·코어 로직은 담당 개발자 승인을 거치게 흐름을 나누고 최종 머지는 항상 개발자가 한다.

상세 정리

문제 재정의: 혼자 쓸 땐 잘 되던 에이전트가 팀으로 넓히자 규칙 버전 불일치로 결과가 흔들려, 프롬프트가 아닌 배포 방식을 바꿔야 하는 문제로 바뀌었다.
code-forge 구조: 위험 명령 차단·수정 후 자동 lint 의 hooks, 사고 모델을 판단 순서로 녹인 AI 가이드, 민감 파일 생성을 막는 접근 제어 3층으로 구성된다.
강제력: 프롬프트는 우회 가능하지만 hooks 는 시스템 레벨이라 에이전트가 어떻게든 매번 실행돼, 기준이 개인 설정에서 플러그인 배포 단위로 올라갔다.
데모: 동일 프롬프트로 base 프로젝트와 code-forge 프로젝트를 비교했는데, "정산 28일 기준·최소 주문 5만 원" 정책을 프롬프트에 안 적어도 후자는 코드베이스를 먼저 읽어 반영했다.
운영 효과: PG 연동에서 카드·계좌이체·간편결제별 성공·실패·취소·환불 케이스를 자동 도출했고, "취소 후 재결제" 같은 누락 쉬운 케이스까지 테스트로 만들었다.
리팩터링: 캠페인마다 갈라진 주문서 컴포넌트를 전수 분석해 공통 베이스+캠페인별 옵션 구조로 합쳐, 며칠 걸릴 작업을 한 흐름에 끝냈다.
새 병목: 정작 "갑자기 안 돼요" 같은 운영 이슈가 담당 개발자 부재로 며칠씩 밀렸고, 병목은 난이도가 아니라 권한과 진입 경로에 있었다.
Anvil 설계: 비개발자가 터미널을 안 쓰므로 Slack 앱으로 만들되, 핵심은 인터페이스가 아니라 그 아래에서 품질을 잡는 하네스다.
흐름 분기: 티켓을 고르면 영향 파일·정책 변경 가능성을 먼저 분석하고, 단순 작업은 바로 구현→품질 게이트→MR, 정책·코어 변경은 담당 개발자 승인 후 구현으로 나뉜다.
실사용 발견: Jira 상태 전환 부분 매칭 버그, 레포 자동 판별 실패, 브랜치 전략 조정 등 설계 때 예측 못 한 문제가 실제 사용자가 생기자 드러났다.
확산: 광고센터 밖 가격최적화 스쿼드가 Anvil 로 신규 필드 추가를 영향 분석→수정→MR→배포까지 개발자 없이 상용에 올린 첫 사례가 나왔다.
재사용성: /setup 이 React/Next.js·Jotai/Zustand·Emotion/Tailwind 등 스택을 감지해 3층 프레임은 두고 모듈만 갈아 끼워, 도입 프로젝트가 늘수록 다음 도입이 쉬워졌다.