AI 모델 선택의 새로운 해답: 똑똑한 AI 라우터
2025. 9. 10.
안녕하세요. 컨시언스 파트너스의 백엔드 개발자 Kris입니다.😎
최근에 대규모 언어모델 라우팅에서의 베이지안 토큰 예측과 불확실성 정량화라는 주제로 석사 논문을 썼어요. 제목만 들어도 어렵게 느껴지죠? 오늘은 이 내용을 누구나 이해할 수 있도록 풀어서 소개해보려고 해요.
현재 AI 생태계의 딜레마
ChatGPT, Claude, Gemini, LLaMA 등 다양한 AI 모델들이 계속 나오고 있어요. 그런데 여기서 가장 큰 질문은 바로 이거예요.
같은 질문을 했을 때, 어떤 모델을 쓰는 게 가장 효율적일까?
GPT-4 → 성능은 뛰어나지만 비용이 비싸요
GPT-3.5 → 저렴하지만 답변 품질이 일정하지 않아요
오픈소스 모델 → 비용 부담은 적지만 성능 편차가 커요
기업 입장에서는 상황에 따라 적절한 모델을 자동으로 골라주는 라우팅 시스템이 꼭 필요해지고 있어요.
기존 라우팅 시스템의 한계
지금까지도 모델 라우팅 연구가 있었지만, 두 가지 한계가 있었어요.
1. 불확실성을 고려하지 않음
예상 성능만 보고 선택했어요. “평균적으로 잘할 거다”라는 예측은 있었지만, 그 예측이 얼마나 확실한지는 알 수 없었어요.
2. 신규 모델 적응의 어려움 (콜드 스타트 문제)
새로운 모델이 등장하면 충분한 데이터를 쌓기 전까지 제대로 활용하지 못했어요.
제가 제안한 해결책: 베이지안 프레임워크
저는 베이지안 통계를 활용해 이 문제를 해결하려고 했어요. 핵심은 예측 결과와 동시에 그 예측의 확실성까지 제공한다는 거예요.
연구는 크게 세 가지 구성으로 이루어졌어요.
1. 답변 길이(토큰 수) 예측
모델이 생성할 답변의 길이를 미리 예측해요. 답변 길이는 곧 비용과 연결되기 때문에 중요한 요소예요.
2. 모델 가족(family) 활용
GPT 계열, Claude 계열, LLaMA 계열처럼 모델들을 그룹화했어요. 이렇게 하면 새로운 모델도 같은 계열 데이터를 활용해 더 빨리 적응할 수 있어요.
3. Thompson Sampling 기반 라우팅
성능이 좋을 것으로 보이는 모델을 주로 쓰되, 가끔은 새로운 모델도 시도하면서 점점 더 학습하는 전략을 사용했어요.
실험 결과
57,477개의 대화 데이터와 59개 모델을 활용한 실험에서 다음과 같은 결과를 얻었어요.
[성과]
같은 계열 모델들이 실제로 유사한 특성을 보였어요
답변 길이 예측 정확도가 58.3% 향상되었어요
월 100만 건 질의 기준, 연간 약 1억 원 비용 절감 효과를 확인했어요
[한계]
Thompson Sampling은 현실 데이터의 노이즈 때문에 기대만큼 성능을 내지 못했어요.
연구의 의의와 한계
이번 연구의 핵심 기여는 모델 라우팅을 단순한 반응적 선택에서 벗어나, 예측과 불확실성을 함께 고려하는 지능적 시스템으로 발전시켰다는 점이에요.
물론 한계도 있었어요. 새로운 모델이 완전히 적응하기까지는 여전히 시간이 필요했고, 이론적으로 좋아 보였던 알고리즘이 현실에서는 제한적인 효과만 보이기도 했어요.
그럼에도 불구하고 불확실성을 고려한 라우팅이 실제로 상당한 비용 절감 효과를 가져올 수 있다는 점을 실험적으로 확인했다는 게 중요한 성과라고 생각해요.
결론
앞으로도 기업들은 계속해서 “어떤 모델을 선택할까?”라는 문제를 마주하게 될 거예요. 이때 필요한 건 단순한 성능 예측이 아니라, 예측과 불확실성을 함께 고려하는 종합적인 접근이에요.
이번 연구를 통해 AI 라우팅이 더 지능적이고 경제적으로 발전할 수 있는 가능성을 보여주고 싶었어요.🙂