pile·
AI / ML·AWS KoreaAWS Korea Tech·

신한카드, 온톨로지와 소형언어모델로 고효율 AI 챗봇 구축하기

신한카드가 AWS GenAIIC와 협력하여 51개 인텐트를 처리하는 금융 AI 챗봇을 소형언어모델(sLLM)만으로 구현한 사례다. 규제(혁신금융서비스 제도 상용 모델 사용 제한), 비용, 5초 이내 응답이라는 세 제약을 동시에 충족하기 위해 온톨로지 기반 인텐트 분류, 분산형 Agentic AI, AI-to-AI 자율 개선이라는 세 가지 혁신을 결합했다.

핵심 포인트
  • 온톨로지로 51개 인텐트를 Domain/Action/Tag 3속성으로 분해해 Qwen3 32B 분류 정확도를 84.2% → 91%로 높였다. 8배 큰 Qwen3 235B(88.7%)보다 2.3%p 우세했다.
  • 3속성 병렬 추론(630토큰×3=1,890)으로 베이스라인 4,800 토큰 대비 60% 절감, 총 지연시간을 약 1/3 단축했다.
  • 분산형 Agentic AI는 오케스트레이터 없이 각 에이전트가 이진 판단만 하는 구조로, Claude Opus 4.5 대비 약 18배 비용 절감과 5초 이내 응답을 달성했다.
  • Tikitaka(AI-to-AI 자율 시스템)가 페르소나 기반 멀티턴 시뮬레이션 → 실패 분석 → 코드 수정 → 재검증의 자가 치유 루프를 구현했다.
  • 현재 한도 관리·이용내역 조회 2개 유즈케이스 검증 완료, 2026년 6월 51개 에이전트 상용 배포 목표다.
상세 정리
  • 배경: 챗봇 레이(Ray) 차세대 버전 개발에서 51개 인텐트 분류 정밀도, 복잡한 멀티턴 대화, 혁신금융서비스 제도·비용·지연시간 세 제약이 동시에 부딪혔다.
  • 온톨로지 설계: 모든 인텐트를 Domain(TRANSACTION 등), Action(CANCEL/RESOLVE 등), Tag(ERROR 등)로 분해해 JSON 맵으로 저장했다. '결제 취소'와 '결제 실패'는 같은 Domain이지만 Action과 Tag가 달라 명확히 구분된다.
  • 베이스라인 문제: 51개 인텐트 전체 설명을 매 요청마다 4,800 토큰으로 프롬프트에 전달하면 sLLM에서 정보 과부하로 분류 오류가 빈발했다.
  • 분류 흐름: sLLM이 Domain/Action/Tag를 각각 독립 추론(병렬 호출) → 규칙 기반 그래프 매칭으로 후보 좁힘 → 단일 후보면 즉시 확정, 복수면 LLM이 중재하는 결정론적 구조다.
  • 인텐트 분류 결과: 카드 한도 관리 시나리오에서 Qwen3 32B 84.2% → 91.0%(+6.8%p), Qwen3 235B 77.4% → 88.7%(+11.3%p). Topic Switching 정확도 98% 달성.
  • 분산형 아키텍처 발상: 각 에이전트가 '이 쿼리가 나와 관련 있는가?'만 이진 판단하므로 에이전트가 51개여도 병렬 실행으로 응답시간이 일정하다.
  • 비용 구조: 모든 에이전트가 Qwen3 32B 기반 sLLM으로 동작해 Claude Opus 4.5 대비 약 18배 비용 절감, 5초 이내 응답 요건 충족.
  • Tikitaka 4단계: ① Test Agent가 실제 고객 페르소나로 동적 멀티턴 대화 시뮬레이션(감정 변화 재현) → ② Analyzer Agent가 비정상 패턴 감지·영향 컴포넌트 특정 → ③ Solution Designer가 수정안 제안 → ④ 검증 후 Update Agent가 프로덕션 배포.
  • Before/After 사례: 개선 전 고객번호 요청 무한 루프(7턴에도 한도 조회 실패) → 개선 후 4턴에 한도 조회·변경·완료까지 처리.
  • AWS 아키텍처: Amazon Bedrock AgentCore로 에이전트 배포, AgentCore Gateway(MCP)로 REST API를 MCP 도구로 변환, Lambda + DynamoDB로 고객 데이터 조회, AWS PrivateLink로 퍼블릭 인터넷 없는 저지연 연결.
  • 향후 계획: 2개 에이전트 → 51개 확장, 보험·대출 도메인 온톨로지 추가, 프롬프트 인젝션 방어·PII 마스킹·비정상 쿼리 탐지 등 보안 가드레일 적용.
왜 읽나규제·비용·속도 제약 하에서 sLLM만으로 고정밀 금융 AI 챗봇을 구현하려는 AI 엔지니어·아키텍트에게 온톨로지 분류, 분산 에이전트, AI 자가 개선 루프의 실전 구현 레퍼런스다.
AWS Korea
AWS Korea Tech 블로그
원문은 여기서 이어서 읽을 수 있어요
원문 읽기
읽음 (0)

이 글과 비슷한

  1. AI / ML·인프랩 (인프런)인프런 (인프랩)·

    학습 에이전트 — AI 두뇌 구축하기

    인프런이 강의 학습 에이전트를 구축하며 겪은 기술 스택 선정, 컨텍스트·도구 설계, LLM-as-a-Judge 품질 개선, 비용 최적화 전략을 다룬다. LLM SSE 스트리밍 처리를 위해 Spring MVC + Virtual Thread + Spring AI를 선택하고, 명시적 프롬프트 캐싱으로 입력 토큰을 90% 절감하는 과정까지 실전 경험이 담겨 있다.

    #ai-agent#llm#llm-as-a-judge+2
  2. AI / ML·네이버 D2네이버 D2·

    AI 에이전트 회사 차리기: 설립부터 어디서든 동기화까지

    네이버 ENGINEERING DAY 2026 발표. Claude Code를 매일 쓰지만 매번 초기화되는 문제를 해결하기 위해 NaverMadCat이라는 다중 AI 에이전트 조직 프레임워크를 구축한 경험을 다룬다. 비서실장 역할의 에이전트가 10개 부서 에이전트를 조율하며, 어느 환경에서 접속해도 동일한 컨텍스트로 동작하도록 동기화 메커니즘을 구현했다.

    #claude-code#multi-agent#ai-agent+2
  3. AI / ML·vercel-blogVercel Blog·

    AI Gateway에서 실시간 음성 에이전트 구축하기

    Vercel AI Gateway가 음성·오디오 기능을 정식 지원한다. 실시간 대화 음성(Realtime Voice), 텍스트→음성(TTS), 음성→텍스트(STT) 세 가지를 기존 텍스트/이미지 모델과 동일한 라우팅·인증·모니터링 체계 위에서 사용할 수 있다. OpenAI gpt-realtime-2·Whisper와 xAI Grok 오디오 모델을 지원하며, AI SDK 7 베타로 제공된다.

    #llm-app#ai-sdk#realtime-voice+2