Gemini vs GPT-4: 콘텐츠 도구에 어떤 AI 모델을 써야 할까
AI 기반 콘텐츠 도구를 만들 때 가장 먼저 부딪히는 질문이 있다.
"모델을 뭐 쓸까?"
GPT-4? Claude? Gemini? 직접 다 써보고 답을 찾았다.
왜 모델 선택이 중요한가
콘텐츠 도구에서 모델 선택은 단순한 "성능" 문제가 아니다. 세 가지가 동시에 걸려 있다:
- 품질 — 실제로 쓸 만한 결과를 내는가
- 속도 — 사용자가 기다리지 않아도 되는가
- 비용 — 지속 가능한 가격으로 운영할 수 있는가
Micro-SaaS의 경우 세 번째가 생존을 결정한다. 마진이 없으면 사업이 없다.
실험 설정
테스트 콘텐츠: 1,200단어 기술 블로그 포스트
출력 포맷: Twitter 스레드, LinkedIn 포스트, 뉴스레터 섹션, TikTok 스크립트, Facebook 포스트
반복: 각 10회 실행, 평균값 사용
품질 평가: LLM-as-Judge (0-10점, 5개 기준)
결과 비교
품질 (LLM-as-Judge 평균)
| 모델 | Newsletter | TikTok | 평균 | |||
|---|---|---|---|---|---|---|
| GPT-4o | 9.1 | 9.4 | 9.2 | 8.7 | 9.0 | 9.08 |
| Gemini 1.5 Pro | 9.3 | 9.2 | 9.5 | 9.1 | 9.4 | 9.30 |
| Claude 3 Sonnet | 9.2 | 9.5 | 9.3 | 8.9 | 9.1 | 9.20 |
품질 차이는 사실 미묘하다. 세 모델 모두 9점 이상을 안정적으로 낸다.
속도 (평균 응답 시간, 5개 포맷 동시 실행)
| 모델 | 평균 |
|---|---|
| GPT-4o | 38.2초 |
| Gemini 1.5 Pro | 31.7초 |
| Claude 3 Sonnet | 44.1초 |
Gemini가 가장 빠르다. 특히 긴 컨텍스트를 처리할 때 차이가 벌어진다.
비용 (1회 실행, 5개 포맷 기준)
| 모델 | 입력 토큰 비용 | 출력 토큰 비용 | 합계 |
|---|---|---|---|
| GPT-4o | $0.0024 | $0.0048 | $0.0072 |
| Gemini 1.5 Pro | $0.0008 | $0.0016 | $0.0024 |
| Claude 3 Sonnet | $0.0018 | $0.0036 | $0.0054 |
Gemini가 GPT-4o 대비 3배 저렴하다.
비용이 비즈니스에 미치는 영향
구독 기반 SaaS의 경우 비용 구조가 마진을 결정한다.
$29/월 Pro 플랜 기준, 사용자 1명이 월 200회 실행한다고 가정:
- GPT-4o 사용 시: 200 × $0.0072 = $1.44/사용자/월
- Gemini 1.5 Pro 사용 시: 200 × $0.0024 = $0.48/사용자/월
마진 차이:
- GPT-4o: $29 - $1.44 = $27.56 (95% 마진)
- Gemini: $29 - $0.48 = $28.52 (98.3% 마진)
100명 구독자 기준 월간 차이: $96
연간 차이: $1,152
작은 숫자처럼 보이지만, Micro-SaaS 초기 단계에서 $1,152는 서버 비용, 마케팅 예산, 또는 새 기능 개발 시간이다.
Gemini를 선택한 진짜 이유
품질과 가격만이 아니다.
1. 긴 컨텍스트 처리 능력
Gemini 1.5 Pro의 컨텍스트 윈도우: 1,000,000 토큰
콘텐츠 리퍼포저 관점에서 이게 왜 중요하냐면:
- 10,000단어 장문 보고서도 통째로 넣을 수 있다
- 여러 관련 포스트를 한 번에 처리해서 일관성 유지 가능
- 향후 "시리즈 전체를 하나의 맥락으로"같은 기능 확장이 쉽다
GPT-4o의 컨텍스트 윈도우는 128K. 실용적으로는 충분하지만, Gemini의 1M은 다른 레벨이다.
2. API 안정성
런칭 전 테스트 기간(7일) 동안:
- GPT-4o: 503 오류 2회, 타임아웃 1회
- Gemini 1.5 Pro: 오류 0회
n=10으로 통계적으로 유의미하진 않지만, 인상적이었다.
3. Google AI Studio 무료 티어
개발 단계에서 비용 걱정 없이 테스트할 수 있었다. 프로토타입 빌드 시 비용이 들지 않는다는 건 작은 차이가 아니다.
GPT-4o가 나은 케이스
공정하게 말하면, GPT-4o가 더 나은 상황도 있다:
1. 특정 스타일 재현
GPT-4o는 "폴 그레이엄 에세이 스타일로" 또는 "Y Combinator 첫 번째 원리로 설명해줘" 같은 지시에 더 잘 반응한다. 특정 레퍼런스 기반 스타일 재현에서 GPT-4o가 약간 앞선다.
2. 함수 호출 (Function Calling)
JSON 출력 구조화가 필요한 경우, GPT-4o의 function calling이 더 안정적으로 느껴졌다. Gemini도 비슷하게 지원하지만 엣지 케이스에서 GPT-4o가 더 예측 가능했다.
3. 코드 포함 콘텐츠
기술 포스트에 코드 스니펫이 많은 경우, GPT-4o가 코드의 맥락을 더 잘 이해하고 그걸 콘텐츠에 통합한다. Gemini도 나쁘지 않지만 미묘한 차이가 있다.
실제 결론
콘텐츠 리퍼포저 같은 도구에서는 Gemini 1.5 Pro가 최적이다.
이유:
- 품질이 동등하거나 약간 우세
- 3배 저렴
- 더 빠른 응답
- 긴 컨텍스트 필요한 미래 기능 확장 용이
GPT-4o를 쓸 케이스:
- 코드 위주 콘텐츠 처리
- 특정 페르소나/스타일 정밀 재현
- 복잡한 함수 호출 파이프라인
모델 선택 프레임워크
AI 콘텐츠 도구를 만들고 있다면, 이 순서로 결정하면 된다:
1. 품질 테스트 (최소 50개 샘플)
→ 모든 후보 모델 동일한 프롬프트로 실행
→ LLM-as-Judge 또는 사람 평가로 점수화
2. 비용 계산
→ 예상 월간 사용량 × 토큰 비용
→ 타겟 마진에서 역산
3. 속도 검증
→ P95 응답 시간이 허용 가능한가?
→ 타임아웃 처리 필요한가?
4. API 안정성
→ 7일 테스트 기간 오류율 측정
→ SLA 확인
5. 미래 요구사항
→ 컨텍스트 윈도우 충분한가?
→ 멀티모달 필요한가?
→ 파인튜닝 필요한가?
품질이 동등하면, 가격을 최적화하라. Micro-SaaS에서 마진은 생존이다.
콘텐츠 리퍼포저는 어떻게 하나
현재 기본값: Gemini 1.5 Pro
옵션: --model gpt4 플래그로 GPT-4o 전환 가능 (API 키 별도 필요)
# 기본 (Gemini)
repurpose post.md --formats twitter linkedin
# GPT-4o로 전환
repurpose post.md --formats twitter --model gpt4
사용자가 직접 선택할 수 있게 했다. 각자의 API 키를 가져오는 구조(BYOK)라서, 어떤 모델을 쓰든 비용은 사용자 계정에서 나간다.
D-4. 런칭까지 4일.
오늘 할 일: 실제 스크린샷 캡처. 텍스트보다 이미지가 ProductHunt에서 3배 더 클릭된다고 한다. 해보자.
→ 내일 D-3 포스트에서 Reddit 사전 워밍업 전략을 다룰 예정이다.