이커머스 부정 반품 요청, AI로 차단한다: Amazon Nova Fine-tuning으로 산업 특화 가드레일 구성하기

패션 이커머스의 부정 반품(워드로빙·허위 불량 신고 등)을 AI 에이전트 앞단에서 차단하기 위해 Amazon Nova 2 Lite를 837개 한국어 도메인 특화 데이터로 Fine-tuning해 Custom Guardrail을 구축한 사례다. Fine-tuned 모델이 Unsafe 탐지 정확도를 73.0% → 94.6%로 21.6%p 올렸고, Claude Sonnet 4.6(59.5%)·Qwen3-32B(5.4%) 등 일반 대형 모델을 크게 앞섰다.

핵심 포인트

일반 LLM은 '도움을 주려는' 성향 때문에 도메인 특화 부정 요청도 수용하려는 경향이 있다. Qwen3-32B는 Unsafe의 5.4%만, Claude Sonnet 4.6은 59.5%만 탐지했다.
837개 한국어 샘플로 Fine-tuning한 Nova 2 Lite는 Unsafe 94.6%, 전체 89.3%로 비교 모델 전체를 능가했다.
워드로빙·택 조작·허위 손상 주장 등 7개 Unsafe 카테고리에서 100% 탐지율을 달성했다.
데이터셋은 64개 수동 샘플로 시작해 템플릿 기반 자동 생성으로 837개로 확장했다. Fine-tuning은 에포크 3회·배치 1·학습률 1e-5로 과적합과 일반 능력 손실을 방지했다.
'소량 도메인 특화 데이터 + Fine-tuning' 패턴은 금융·헬스케어·공유 모빌리티 등 다양한 산업의 부정 의도 탐지 가드레일에 적용 가능하다.

상세 정리

배경: 패션 이커머스 반품률은 20~30%로 오프라인(8~10%) 대비 높고, 전체 반품의 13.7%가 사기·남용으로 연간 약 1,000억 달러 손실이 발생한다(NRF·Appriss Retail 2023).
주요 부정 유형 4가지: 워드로빙(행사 착용 후 반품), 허위 불량 신고, 브래킷팅(여러 사이즈 주문 후 1개 보유), 택 조작(사용 흔적 제거).
Safe/Unsafe 기준: '반품되나요?'처럼 정직한 사유가 있으면 Safe, '불량이라고 하면 되나요?'처럼 거짓 계획이 포함되면 Unsafe. '결혼식에 입고 갔는데 반품되나요?'는 워드로빙 시도로 Unsafe.
데이터셋 구성: 상품 카테고리·이벤트·결함 변수 풀 조합 템플릿 자동 생성으로 64개 → 837개 확장. Train 671 / Val 82 / Test 84, Unsafe 48%·Safe 52% 균형 유지. Unsafe 8개 카테고리 중 워드로빙 135개로 최다.
모델 선택: Nova 2 Lite는 비용 효율성, 256k 토큰 컨텍스트, Amazon Bedrock 네이티브 Fine-tuning 지원, 가드레일 특성상 필요한 낮은 지연시간 측면에서 선택했다.
Fine-tuning 설정: 에포크 3(소규모 데이터 과적합 방지), 배치 크기 1, 학습률 1e-5(사전학습 일반 언어 능력 보존 + 도메인 패턴 안정 학습). Amazon Bedrock Fine-tuning API가 S3 업로드부터 IAM 역할·모델 학습·상태 모니터링을 자동 처리.
평가 결과: Fine-tuned Nova 2 Lite — 전체 89.3%, Safe 85.1%, Unsafe 94.6%. Base 대비 Unsafe +21.6%p, 전체 +8.3%p. Safe는 -2.1%p 소폭 감소(트레이드오프).
카테고리별 개선: 워드로빙 60% → 100%, 워드로빙 전략 71.4% → 100%, 택 조작 33.3% → 100% 등 7개 카테고리 완전 탐지 달성.
배포 방식: Fine-tuning 완료 후 On-Demand 배포(호출량 기반 과금, 유휴 비용 없음) 권장. Provisioned Throughput은 대량·고정 트래픽에 적합.
아키텍처: 고객 요청 → Fine-tuned Nova Guardrail → Unsafe면 즉시 거부, Safe면 AI 에이전트 정상 처리. 별도 인프라 없이 Amazon Bedrock 추론 API로 통합 가능.
산업 확장성: 금융(보험 허위 신고), 헬스케어(처방 목적 허위 증상), 공유 모빌리티(고의 손상 허위 신고) 등에 동일 패턴 적용 가능. 수백 개 레이블 데이터와 Bedrock Fine-tuning으로 수 일 내 구축.
향후 계획: 다양한 부정 패턴 추가, 이미지 기반 멀티모달 탐지, 새 부정 패턴 실시간 학습, A/B 테스트.

왜 읽나AI 에이전트 앞단에 도메인 특화 가드레일을 소형 모델 Fine-tuning으로 구축하려는 ML 엔지니어·이커머스 개발자에게 데이터셋 설계부터 평가·배포까지의 실전 파이프라인 레퍼런스다.

AWS Korea Tech 블로그

원문은 여기서 이어서 읽을 수 있어요

원문 읽기

읽음 (0)

·takedown 요청

이커머스 부정 반품 요청, AI로 차단한다: Amazon Nova Fine-tuning으로 산업 특화 가드레일 구성하기

이 글과 비슷한

학습 에이전트 — AI 두뇌 구축하기

AI 에이전트 회사 차리기: 설립부터 어디서든 동기화까지

AI Gateway에서 실시간 음성 에이전트 구축하기