에이전트 기반 테스팅: E2E 테스트 스택에서 에이전트의 위치

Slack 엔지니어링 팀이 AI 에이전트를 E2E 테스트 자동화에 적용한 실험 결과를 공유한다. 200회 이상의 자동화 실행으로 신뢰성·속도·비용을 정량 측정해, 기존 결정론적 테스트와 에이전트 기반 테스트가 각각 어느 단계에 적합한지 구분했다.

핵심 포인트

에이전트는 특정 UI 경로를 검증하는 대신 "목표 달성 여부"를 검증해 동일 결과에 도달하는 다양한 경로를 스스로 탐색한다.
3가지 접근 방식(Agent + Playwright MCP, Agent + Playwright CLI, Generated Playwright Tests)을 각 20회씩 자연어/YAML 입력으로 실행해 비교했다.
MCP 기반 에이전트가 Thread Reply(단순 시나리오)에서 실패율 0%로 가장 안정적이었으나, 복잡한 Search Discovery에서는 ~12% 실패로 성능이 저하된다.
에이전트 실행당 $15~30 비용 발생. 토큰 대부분이 매 턴마다 전체 대화 기록을 재전송하는 구조에서 소모된다.
에이전트 기반 테스팅의 최적 용도는 CI 회귀 테스트가 아닌, 불안정 워크플로 디버깅·프로덕션 버그 재현·탐색적 테스팅이다.

상세 정리

실험 목적: 에이전트가 E2E 테스트 스택에서 실제로 어느 위치에 적합한지 정량 데이터로 검증. Playwright 결정론적 테스트를 대체할 수 있는지가 핵심 질문이었다.
테스트 시나리오: Thread Reply(단순, ~15~20단계)와 Search Discovery(중간 복잡도, ~25~30단계) 두 흐름으로 복잡도별 차이를 측정했다.
신뢰성 비교(실패율): MCP - Thread Reply 0%, Search Discovery ~12% / CLI - Thread Reply ~12%, Search Discovery ~20% / Generated Tests - Thread Reply ~8%, Search Discovery ~48%. 복잡도 증가 시 모든 방식의 실패율이 급등했다.
실행 속도: Generated Tests ~3분(가장 빠름), MCP 5~8분, CLI 9~11분. 에이전트 방식은 결정론적 테스트 대비 느리다.
경로 다양성: 전체 실행의 약 20%만 동일한 작업 순서를 따랐다. 에이전트는 목표 달성까지 매번 다른 UI 탐색 경로를 선택했고, 이것이 예측 불가능성의 원인이다.
비용 구조: 에이전트 실행당 $15~30. 토큰 사용량은 MCP(Opus 4.6) ~3.8M, MCP(Sonnet 4.5) ~3.5M, CLI(Opus 4.6) ~6M, Code Gen(Opus 4.6) ~7M. 비용 대부분은 매 턴마다 전체 시스템 프롬프트+대화 기록 재전송에서 발생한다.
평균 턴 수: MCP ~40~60턴, CLI ~85턴, Code Gen ~70턴. 턴 수가 많을수록 비용과 지연이 누적된다.
실행 환경의 중요성: 동일 모델에서도 MCP와 CLI 방식에 따라 신뢰성이 크게 달랐다. 실행 환경이 모델 선택만큼 중요한 변수임을 확인했다.
비용 최적화 방향: 프롬프트 캐싱과 컨텍스트 압축으로 토큰 재전송 비용을 줄이는 것이 주요 레버로 제시됐다.
테스팅 피라미드 결론: 에이전트 기반 테스팅은 CI 고빈도 회귀 테스트를 대체하지 않는다. 결정론적 테스트가 놓치는 복잡한 UI 탐색·불안정 워크플로 디버깅·프로덕션 버그 재현에 특화된 새로운 계층으로 자리잡는다.

왜 읽나E2E 테스트 자동화나 AI 에이전트를 QA 파이프라인에 도입 중인 엔지니어에게, 실측 데이터(신뢰성·비용·속도)를 바탕으로 에이전트 테스팅의 현실적 한계와 적합한 용도를 파악할 수 있는 레퍼런스다.

Slack Engineering 블로그

원문은 여기서 이어서 읽을 수 있어요

원문 읽기

읽음 (0)

·takedown 요청

에이전트 기반 테스팅: E2E 테스트 스택에서 에이전트의 위치

이 글과 비슷한

학습 에이전트 — AI 두뇌 구축하기

AI 에이전트 회사 차리기: 설립부터 어디서든 동기화까지

AI Gateway에서 실시간 음성 에이전트 구축하기