OTel 비용 폭발을 막는 샘플링 가드레일
관측(Observability) 비용은 데이터 양에 정비례한다. 문제는 대부분의 팀이 샘플링 정책을 감으로 정한다는 것. 그래서 비용이 폭발하거나, 반대로 중요한 트레이스가 사라진다.
왜 비용이 폭발하는가
- 트레이스가 가장 비싼 데이터인데, 기본값이 거의 100%
- 에러/슬로우 트레이스와 정상 트래픽이 동일 취급
- 샘플링 정책이 서비스별로 일관되지 않음
Micro-SaaS 포인트
- 서비스별 샘플링 정책 템플릿 (핵심/비핵심 자동 분리)
- 에러/슬로우 트레이스 우선 보존
- 비용 상한선(월/일) 기반 자동 레이트 조정
실행 가이드
- 에러/슬로우 트레이스 100% 보존을 기본으로
- 정상 트래픽은 서비스 중요도별로 1~5% 설정
- Collector에서 Tail-based Sampling 적용
- 비용 임계치 도달 시 자동 다운샘플링 룰 추가
한 줄 결론
OTel 비용은 **“샘플링 정책의 품질”**이 결정한다. 가드레일이 없는 팀은 결국 비용과 가시성을 동시에 잃는다.