pile·
기타·여기어때 (GC컴퍼니)여기어때 (GC컴퍼니)·

개발자 없이 5분 만에 버그를 고친 QA, 우리가 설계한 것과 설계하지 않은 것

여기어때 광고센터가 AI 코딩 에이전트를 개인 도구에서 팀 플러그인(code-forge), 다시 비개발자도 Slack 에서 쓰는 앱(Anvil)으로 키운 과정을 다룬다. 핵심은 "더 좋은 프롬프트"가 아니라 "누가 작업하든 같은 코드 품질이 나오는 환경(하네스)을 먼저 설계하는 것"이 진짜 문제였다는 점이다.

핵심 포인트
  • 규칙 파일을 git 으로 공유하니 팀원마다 버전이 달라 같은 요청에 다른 결과가 나오는 동기화 문제가 터졌다.
  • code-forge 는 /setup 하나로 스택을 자동 감지해 hooks·AI 가이드·접근 제어 3층을 입히는 Claude Code 플러그인이다.
  • 프롬프트는 무시할 수 있어도 hooks 는 시스템이 강제해, 에이전트가 우회해도 lint·위험 명령 차단이 매번 실행된다.
  • Anvil 은 code-forge 위에 Slack 인터페이스를 얹어, 비개발자도 같은 품질 게이트를 거쳐 코드를 수정하게 한다.
  • 단순 수정은 바로 구현, 정책·코어 로직은 담당 개발자 승인을 거치게 흐름을 나누고 최종 머지는 항상 개발자가 한다.
상세 정리
  • 문제 재정의: 혼자 쓸 땐 잘 되던 에이전트가 팀으로 넓히자 규칙 버전 불일치로 결과가 흔들려, 프롬프트가 아닌 배포 방식을 바꿔야 하는 문제로 바뀌었다.
  • code-forge 구조: 위험 명령 차단·수정 후 자동 lint 의 hooks, 사고 모델을 판단 순서로 녹인 AI 가이드, 민감 파일 생성을 막는 접근 제어 3층으로 구성된다.
  • 강제력: 프롬프트는 우회 가능하지만 hooks 는 시스템 레벨이라 에이전트가 어떻게든 매번 실행돼, 기준이 개인 설정에서 플러그인 배포 단위로 올라갔다.
  • 데모: 동일 프롬프트로 base 프로젝트와 code-forge 프로젝트를 비교했는데, "정산 28일 기준·최소 주문 5만 원" 정책을 프롬프트에 안 적어도 후자는 코드베이스를 먼저 읽어 반영했다.
  • 운영 효과: PG 연동에서 카드·계좌이체·간편결제별 성공·실패·취소·환불 케이스를 자동 도출했고, "취소 후 재결제" 같은 누락 쉬운 케이스까지 테스트로 만들었다.
  • 리팩터링: 캠페인마다 갈라진 주문서 컴포넌트를 전수 분석해 공통 베이스+캠페인별 옵션 구조로 합쳐, 며칠 걸릴 작업을 한 흐름에 끝냈다.
  • 새 병목: 정작 "갑자기 안 돼요" 같은 운영 이슈가 담당 개발자 부재로 며칠씩 밀렸고, 병목은 난이도가 아니라 권한과 진입 경로에 있었다.
  • Anvil 설계: 비개발자가 터미널을 안 쓰므로 Slack 앱으로 만들되, 핵심은 인터페이스가 아니라 그 아래에서 품질을 잡는 하네스다.
  • 흐름 분기: 티켓을 고르면 영향 파일·정책 변경 가능성을 먼저 분석하고, 단순 작업은 바로 구현→품질 게이트→MR, 정책·코어 변경은 담당 개발자 승인 후 구현으로 나뉜다.
  • 실사용 발견: Jira 상태 전환 부분 매칭 버그, 레포 자동 판별 실패, 브랜치 전략 조정 등 설계 때 예측 못 한 문제가 실제 사용자가 생기자 드러났다.
  • 확산: 광고센터 밖 가격최적화 스쿼드가 Anvil 로 신규 필드 추가를 영향 분석→수정→MR→배포까지 개발자 없이 상용에 올린 첫 사례가 나왔다.
  • 재사용성: /setup 이 React/Next.js·Jotai/Zustand·Emotion/Tailwind 등 스택을 감지해 3층 프레임은 두고 모듈만 갈아 끼워, 도입 프로젝트가 늘수록 다음 도입이 쉬워졌다.
왜 읽나AI 코딩 에이전트를 팀·비개발자까지 확장하려는 개발자에게, 모델 선택보다 하네스·품질 게이트·권한 경계 설계가 먼저라는 단계별 실전 레퍼런스.
여기어때 (GC컴퍼니)
여기어때 (GC컴퍼니) 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. 기타·stackoverflow-blogStack Overflow Blog·

    Selenium vs Cypress vs Playwright — 테스트 자동화 프레임워크 선택 가이드 2026

    2026년 기준 Selenium, Cypress, Playwright 세 가지 테스트 자동화 프레임워크를 아키텍처, 안정성, 비용, 브라우저 지원, 언어 지원 측면에서 비교한다. 세 프레임워크는 브라우저 제어 방식에서 근본적으로 다르며, 각각의 강점이 다른 사용 시나리오에 최적화되어 있다.

    #e2e-testing#test-automation#selenium+2