신한카드, 온톨로지와 소형언어모델로 고효율 AI 챗봇 구축하기

신한카드가 AWS GenAIIC와 협력하여 51개 인텐트를 처리하는 금융 AI 챗봇을 소형언어모델(sLLM)만으로 구현한 사례다. 규제(혁신금융서비스 제도 상용 모델 사용 제한), 비용, 5초 이내 응답이라는 세 제약을 동시에 충족하기 위해 온톨로지 기반 인텐트 분류, 분산형 Agentic AI, AI-to-AI 자율 개선이라는 세 가지 혁신을 결합했다.

핵심 포인트

온톨로지로 51개 인텐트를 Domain/Action/Tag 3속성으로 분해해 Qwen3 32B 분류 정확도를 84.2% → 91%로 높였다. 8배 큰 Qwen3 235B(88.7%)보다 2.3%p 우세했다.
3속성 병렬 추론(630토큰×3=1,890)으로 베이스라인 4,800 토큰 대비 60% 절감, 총 지연시간을 약 1/3 단축했다.
분산형 Agentic AI는 오케스트레이터 없이 각 에이전트가 이진 판단만 하는 구조로, Claude Opus 4.5 대비 약 18배 비용 절감과 5초 이내 응답을 달성했다.
Tikitaka(AI-to-AI 자율 시스템)가 페르소나 기반 멀티턴 시뮬레이션 → 실패 분석 → 코드 수정 → 재검증의 자가 치유 루프를 구현했다.
현재 한도 관리·이용내역 조회 2개 유즈케이스 검증 완료, 2026년 6월 51개 에이전트 상용 배포 목표다.

상세 정리

배경: 챗봇 레이(Ray) 차세대 버전 개발에서 51개 인텐트 분류 정밀도, 복잡한 멀티턴 대화, 혁신금융서비스 제도·비용·지연시간 세 제약이 동시에 부딪혔다.
온톨로지 설계: 모든 인텐트를 Domain(TRANSACTION 등), Action(CANCEL/RESOLVE 등), Tag(ERROR 등)로 분해해 JSON 맵으로 저장했다. '결제 취소'와 '결제 실패'는 같은 Domain이지만 Action과 Tag가 달라 명확히 구분된다.
베이스라인 문제: 51개 인텐트 전체 설명을 매 요청마다 4,800 토큰으로 프롬프트에 전달하면 sLLM에서 정보 과부하로 분류 오류가 빈발했다.
분류 흐름: sLLM이 Domain/Action/Tag를 각각 독립 추론(병렬 호출) → 규칙 기반 그래프 매칭으로 후보 좁힘 → 단일 후보면 즉시 확정, 복수면 LLM이 중재하는 결정론적 구조다.
인텐트 분류 결과: 카드 한도 관리 시나리오에서 Qwen3 32B 84.2% → 91.0%(+6.8%p), Qwen3 235B 77.4% → 88.7%(+11.3%p). Topic Switching 정확도 98% 달성.
분산형 아키텍처 발상: 각 에이전트가 '이 쿼리가 나와 관련 있는가?'만 이진 판단하므로 에이전트가 51개여도 병렬 실행으로 응답시간이 일정하다.
비용 구조: 모든 에이전트가 Qwen3 32B 기반 sLLM으로 동작해 Claude Opus 4.5 대비 약 18배 비용 절감, 5초 이내 응답 요건 충족.
Tikitaka 4단계: ① Test Agent가 실제 고객 페르소나로 동적 멀티턴 대화 시뮬레이션(감정 변화 재현) → ② Analyzer Agent가 비정상 패턴 감지·영향 컴포넌트 특정 → ③ Solution Designer가 수정안 제안 → ④ 검증 후 Update Agent가 프로덕션 배포.
Before/After 사례: 개선 전 고객번호 요청 무한 루프(7턴에도 한도 조회 실패) → 개선 후 4턴에 한도 조회·변경·완료까지 처리.
AWS 아키텍처: Amazon Bedrock AgentCore로 에이전트 배포, AgentCore Gateway(MCP)로 REST API를 MCP 도구로 변환, Lambda + DynamoDB로 고객 데이터 조회, AWS PrivateLink로 퍼블릭 인터넷 없는 저지연 연결.
향후 계획: 2개 에이전트 → 51개 확장, 보험·대출 도메인 온톨로지 추가, 프롬프트 인젝션 방어·PII 마스킹·비정상 쿼리 탐지 등 보안 가드레일 적용.