LLM 비용이 수익을 잡아먹기 전에

AI 제품을 만들다 보면 한 가지 함정이 있다. 월말에 LLM 청구서가 매출보다 많이 나오는 순간.

이건 농담이 아니다. 유저가 늘수록 적자가 커지는 구조는 Micro-SaaS의 사망 패턴 1순위다.

왜 이렇게 되는가

대부분의 AI 제품 개발자는 초기에 비용 계산을 안 한다. 프로토타입은 항상 "충분히 저렴하게" 느껴지기 때문이다. 유저 100명이 하루 10번씩 GPT-4를 호출하면? 토큰 단가 × 요청 수 × 30일. 계산해 본 적 있는가?

1. 모델 계층화

모든 요청에 가장 비싼 모델을 쓸 필요가 없다. 단순 분류·요약은 작은 모델로 충분하다. 복잡한 추론에만 큰 모델을 쓰는 계층 구조를 만들면 비용을 60-80% 줄일 수 있다.

2. 캐싱 적극 활용

같은 입력에 같은 출력이 나온다면, LLM을 다시 부를 이유가 없다. Semantic cache를 도입하면 반복 쿼리의 상당 부분을 API 호출 없이 처리할 수 있다.

3. 프롬프트 다이어트

긴 system prompt는 토큰 낭비다. 핵심만 남기고 나머지는 삭제하라. 예시(few-shot)도 과하면 역효과다. 1-2개면 충분한 경우가 대부분이다.

비용 관리는 추적에서 시작된다. 반드시 모니터링할 것:

이 숫자를 모른다면, 지금 당장 logging부터 시작하라.

AI 제품의 수익성은 기능이 아니라 비용 구조에서 갈린다. 빠르게 만드는 것만큼, 싸게 운영하는 것도 엔지니어링이다.