Skip to main content

OTel 비용 폭발을 막는 샘플링 가드레일

관측(Observability) 비용은 데이터 양에 정비례한다. 문제는 대부분의 팀이 샘플링 정책을 감으로 정한다는 것. 그래서 비용이 폭발하거나, 반대로 중요한 트레이스가 사라진다.

왜 비용이 폭발하는가

  • 트레이스가 가장 비싼 데이터인데, 기본값이 거의 100%
  • 에러/슬로우 트레이스와 정상 트래픽이 동일 취급
  • 샘플링 정책이 서비스별로 일관되지 않음

Micro-SaaS 포인트

  • 서비스별 샘플링 정책 템플릿 (핵심/비핵심 자동 분리)
  • 에러/슬로우 트레이스 우선 보존
  • 비용 상한선(월/일) 기반 자동 레이트 조정

실행 가이드

  1. 에러/슬로우 트레이스 100% 보존을 기본으로
  2. 정상 트래픽은 서비스 중요도별로 1~5% 설정
  3. Collector에서 Tail-based Sampling 적용
  4. 비용 임계치 도달 시 자동 다운샘플링 룰 추가

한 줄 결론

OTel 비용은 **“샘플링 정책의 품질”**이 결정한다. 가드레일이 없는 팀은 결국 비용과 가시성을 동시에 잃는다.