pile·
AI / ML·slack-engSlack Engineering·

에이전트 기반 테스팅: E2E 테스트 스택에서 에이전트의 위치

Slack 엔지니어링 팀이 AI 에이전트를 E2E 테스트 자동화에 적용한 실험 결과를 공유한다. 200회 이상의 자동화 실행으로 신뢰성·속도·비용을 정량 측정해, 기존 결정론적 테스트와 에이전트 기반 테스트가 각각 어느 단계에 적합한지 구분했다.

핵심 포인트
  • 에이전트는 특정 UI 경로를 검증하는 대신 "목표 달성 여부"를 검증해 동일 결과에 도달하는 다양한 경로를 스스로 탐색한다.
  • 3가지 접근 방식(Agent + Playwright MCP, Agent + Playwright CLI, Generated Playwright Tests)을 각 20회씩 자연어/YAML 입력으로 실행해 비교했다.
  • MCP 기반 에이전트가 Thread Reply(단순 시나리오)에서 실패율 0%로 가장 안정적이었으나, 복잡한 Search Discovery에서는 ~12% 실패로 성능이 저하된다.
  • 에이전트 실행당 $15~30 비용 발생. 토큰 대부분이 매 턴마다 전체 대화 기록을 재전송하는 구조에서 소모된다.
  • 에이전트 기반 테스팅의 최적 용도는 CI 회귀 테스트가 아닌, 불안정 워크플로 디버깅·프로덕션 버그 재현·탐색적 테스팅이다.
상세 정리
  • 실험 목적: 에이전트가 E2E 테스트 스택에서 실제로 어느 위치에 적합한지 정량 데이터로 검증. Playwright 결정론적 테스트를 대체할 수 있는지가 핵심 질문이었다.
  • 테스트 시나리오: Thread Reply(단순, ~15~20단계)와 Search Discovery(중간 복잡도, ~25~30단계) 두 흐름으로 복잡도별 차이를 측정했다.
  • 신뢰성 비교(실패율): MCP - Thread Reply 0%, Search Discovery ~12% / CLI - Thread Reply ~12%, Search Discovery ~20% / Generated Tests - Thread Reply ~8%, Search Discovery ~48%. 복잡도 증가 시 모든 방식의 실패율이 급등했다.
  • 실행 속도: Generated Tests ~3분(가장 빠름), MCP 5~8분, CLI 9~11분. 에이전트 방식은 결정론적 테스트 대비 느리다.
  • 경로 다양성: 전체 실행의 약 20%만 동일한 작업 순서를 따랐다. 에이전트는 목표 달성까지 매번 다른 UI 탐색 경로를 선택했고, 이것이 예측 불가능성의 원인이다.
  • 비용 구조: 에이전트 실행당 $15~30. 토큰 사용량은 MCP(Opus 4.6) ~3.8M, MCP(Sonnet 4.5) ~3.5M, CLI(Opus 4.6) ~6M, Code Gen(Opus 4.6) ~7M. 비용 대부분은 매 턴마다 전체 시스템 프롬프트+대화 기록 재전송에서 발생한다.
  • 평균 턴 수: MCP ~40~60턴, CLI ~85턴, Code Gen ~70턴. 턴 수가 많을수록 비용과 지연이 누적된다.
  • 실행 환경의 중요성: 동일 모델에서도 MCP와 CLI 방식에 따라 신뢰성이 크게 달랐다. 실행 환경이 모델 선택만큼 중요한 변수임을 확인했다.
  • 비용 최적화 방향: 프롬프트 캐싱과 컨텍스트 압축으로 토큰 재전송 비용을 줄이는 것이 주요 레버로 제시됐다.
  • 테스팅 피라미드 결론: 에이전트 기반 테스팅은 CI 고빈도 회귀 테스트를 대체하지 않는다. 결정론적 테스트가 놓치는 복잡한 UI 탐색·불안정 워크플로 디버깅·프로덕션 버그 재현에 특화된 새로운 계층으로 자리잡는다.
왜 읽나E2E 테스트 자동화나 AI 에이전트를 QA 파이프라인에 도입 중인 엔지니어에게, 실측 데이터(신뢰성·비용·속도)를 바탕으로 에이전트 테스팅의 현실적 한계와 적합한 용도를 파악할 수 있는 레퍼런스다.
slack-eng
Slack Engineering 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. AI / ML·인프랩 (인프런)인프런 (인프랩)·

    학습 에이전트 — AI 두뇌 구축하기

    인프런이 강의 학습 에이전트를 구축하며 겪은 기술 스택 선정, 컨텍스트·도구 설계, LLM-as-a-Judge 품질 개선, 비용 최적화 전략을 다룬다. LLM SSE 스트리밍 처리를 위해 Spring MVC + Virtual Thread + Spring AI를 선택하고, 명시적 프롬프트 캐싱으로 입력 토큰을 90% 절감하는 과정까지 실전 경험이 담겨 있다.

    #ai-agent#llm#llm-as-a-judge+2
  2. AI / ML·네이버 D2네이버 D2·

    AI 에이전트 회사 차리기: 설립부터 어디서든 동기화까지

    네이버 ENGINEERING DAY 2026 발표. Claude Code를 매일 쓰지만 매번 초기화되는 문제를 해결하기 위해 NaverMadCat이라는 다중 AI 에이전트 조직 프레임워크를 구축한 경험을 다룬다. 비서실장 역할의 에이전트가 10개 부서 에이전트를 조율하며, 어느 환경에서 접속해도 동일한 컨텍스트로 동작하도록 동기화 메커니즘을 구현했다.

    #claude-code#multi-agent#ai-agent+2
  3. AI / ML·vercel-blogVercel Blog·

    AI Gateway에서 실시간 음성 에이전트 구축하기

    Vercel AI Gateway가 음성·오디오 기능을 정식 지원한다. 실시간 대화 음성(Realtime Voice), 텍스트→음성(TTS), 음성→텍스트(STT) 세 가지를 기존 텍스트/이미지 모델과 동일한 라우팅·인증·모니터링 체계 위에서 사용할 수 있다. OpenAI gpt-realtime-2·Whisper와 xAI Grok 오디오 모델을 지원하며, AI SDK 7 베타로 제공된다.

    #llm-app#ai-sdk#realtime-voice+2