본문으로 건너뛰기

Gemini vs GPT-4: 콘텐츠 도구에 어떤 AI 모델을 써야 할까

AI 기반 콘텐츠 도구를 만들 때 가장 먼저 부딪히는 질문이 있다.

"모델을 뭐 쓸까?"

GPT-4? Claude? Gemini? 직접 다 써보고 답을 찾았다.

왜 모델 선택이 중요한가

콘텐츠 도구에서 모델 선택은 단순한 "성능" 문제가 아니다. 세 가지가 동시에 걸려 있다:

  1. 품질 — 실제로 쓸 만한 결과를 내는가
  2. 속도 — 사용자가 기다리지 않아도 되는가
  3. 비용 — 지속 가능한 가격으로 운영할 수 있는가

Micro-SaaS의 경우 세 번째가 생존을 결정한다. 마진이 없으면 사업이 없다.


실험 설정

테스트 콘텐츠: 1,200단어 기술 블로그 포스트
출력 포맷: Twitter 스레드, LinkedIn 포스트, 뉴스레터 섹션, TikTok 스크립트, Facebook 포스트
반복: 각 10회 실행, 평균값 사용
품질 평가: LLM-as-Judge (0-10점, 5개 기준)


결과 비교

품질 (LLM-as-Judge 평균)

모델TwitterLinkedInNewsletterTikTokFacebook평균
GPT-4o9.19.49.28.79.09.08
Gemini 1.5 Pro9.39.29.59.19.49.30
Claude 3 Sonnet9.29.59.38.99.19.20

품질 차이는 사실 미묘하다. 세 모델 모두 9점 이상을 안정적으로 낸다.

속도 (평균 응답 시간, 5개 포맷 동시 실행)

모델평균
GPT-4o38.2초
Gemini 1.5 Pro31.7초
Claude 3 Sonnet44.1초

Gemini가 가장 빠르다. 특히 긴 컨텍스트를 처리할 때 차이가 벌어진다.

비용 (1회 실행, 5개 포맷 기준)

모델입력 토큰 비용출력 토큰 비용합계
GPT-4o$0.0024$0.0048$0.0072
Gemini 1.5 Pro$0.0008$0.0016$0.0024
Claude 3 Sonnet$0.0018$0.0036$0.0054

Gemini가 GPT-4o 대비 3배 저렴하다.


비용이 비즈니스에 미치는 영향

구독 기반 SaaS의 경우 비용 구조가 마진을 결정한다.

$29/월 Pro 플랜 기준, 사용자 1명이 월 200회 실행한다고 가정:

  • GPT-4o 사용 시: 200 × $0.0072 = $1.44/사용자/월
  • Gemini 1.5 Pro 사용 시: 200 × $0.0024 = $0.48/사용자/월

마진 차이:

  • GPT-4o: $29 - $1.44 = $27.56 (95% 마진)
  • Gemini: $29 - $0.48 = $28.52 (98.3% 마진)

100명 구독자 기준 월간 차이: $96
연간 차이: $1,152

작은 숫자처럼 보이지만, Micro-SaaS 초기 단계에서 $1,152는 서버 비용, 마케팅 예산, 또는 새 기능 개발 시간이다.


Gemini를 선택한 진짜 이유

품질과 가격만이 아니다.

1. 긴 컨텍스트 처리 능력

Gemini 1.5 Pro의 컨텍스트 윈도우: 1,000,000 토큰

콘텐츠 리퍼포저 관점에서 이게 왜 중요하냐면:

  • 10,000단어 장문 보고서도 통째로 넣을 수 있다
  • 여러 관련 포스트를 한 번에 처리해서 일관성 유지 가능
  • 향후 "시리즈 전체를 하나의 맥락으로"같은 기능 확장이 쉽다

GPT-4o의 컨텍스트 윈도우는 128K. 실용적으로는 충분하지만, Gemini의 1M은 다른 레벨이다.

2. API 안정성

런칭 전 테스트 기간(7일) 동안:

  • GPT-4o: 503 오류 2회, 타임아웃 1회
  • Gemini 1.5 Pro: 오류 0회

n=10으로 통계적으로 유의미하진 않지만, 인상적이었다.

3. Google AI Studio 무료 티어

개발 단계에서 비용 걱정 없이 테스트할 수 있었다. 프로토타입 빌드 시 비용이 들지 않는다는 건 작은 차이가 아니다.


GPT-4o가 나은 케이스

공정하게 말하면, GPT-4o가 더 나은 상황도 있다:

1. 특정 스타일 재현

GPT-4o는 "폴 그레이엄 에세이 스타일로" 또는 "Y Combinator 첫 번째 원리로 설명해줘" 같은 지시에 더 잘 반응한다. 특정 레퍼런스 기반 스타일 재현에서 GPT-4o가 약간 앞선다.

2. 함수 호출 (Function Calling)

JSON 출력 구조화가 필요한 경우, GPT-4o의 function calling이 더 안정적으로 느껴졌다. Gemini도 비슷하게 지원하지만 엣지 케이스에서 GPT-4o가 더 예측 가능했다.

3. 코드 포함 콘텐츠

기술 포스트에 코드 스니펫이 많은 경우, GPT-4o가 코드의 맥락을 더 잘 이해하고 그걸 콘텐츠에 통합한다. Gemini도 나쁘지 않지만 미묘한 차이가 있다.


실제 결론

콘텐츠 리퍼포저 같은 도구에서는 Gemini 1.5 Pro가 최적이다.

이유:

  1. 품질이 동등하거나 약간 우세
  2. 3배 저렴
  3. 더 빠른 응답
  4. 긴 컨텍스트 필요한 미래 기능 확장 용이

GPT-4o를 쓸 케이스:

  • 코드 위주 콘텐츠 처리
  • 특정 페르소나/스타일 정밀 재현
  • 복잡한 함수 호출 파이프라인

모델 선택 프레임워크

AI 콘텐츠 도구를 만들고 있다면, 이 순서로 결정하면 된다:

1. 품질 테스트 (최소 50개 샘플)
→ 모든 후보 모델 동일한 프롬프트로 실행
→ LLM-as-Judge 또는 사람 평가로 점수화

2. 비용 계산
→ 예상 월간 사용량 × 토큰 비용
→ 타겟 마진에서 역산

3. 속도 검증
→ P95 응답 시간이 허용 가능한가?
→ 타임아웃 처리 필요한가?

4. API 안정성
→ 7일 테스트 기간 오류율 측정
→ SLA 확인

5. 미래 요구사항
→ 컨텍스트 윈도우 충분한가?
→ 멀티모달 필요한가?
→ 파인튜닝 필요한가?

품질이 동등하면, 가격을 최적화하라. Micro-SaaS에서 마진은 생존이다.


콘텐츠 리퍼포저는 어떻게 하나

현재 기본값: Gemini 1.5 Pro
옵션: --model gpt4 플래그로 GPT-4o 전환 가능 (API 키 별도 필요)

# 기본 (Gemini)
repurpose post.md --formats twitter linkedin

# GPT-4o로 전환
repurpose post.md --formats twitter --model gpt4

사용자가 직접 선택할 수 있게 했다. 각자의 API 키를 가져오는 구조(BYOK)라서, 어떤 모델을 쓰든 비용은 사용자 계정에서 나간다.


D-4. 런칭까지 4일.

오늘 할 일: 실제 스크린샷 캡처. 텍스트보다 이미지가 ProductHunt에서 3배 더 클릭된다고 한다. 해보자.

→ 내일 D-3 포스트에서 Reddit 사전 워밍업 전략을 다룰 예정이다.