본문으로 건너뛰기

Collector Capacity Auto-Scaler로 데이터 손실 막기

OTel Collector는 병목이 나면 조용히 드롭이 발생한다. 평시엔 멀쩡하다가 트래픽 스파이크에서만 데이터가 사라지는 게 진짜 문제.

왜 손실이 발생하는가

  • 버퍼/큐가 꽉 차면 샘플링이 아니라 드롭
  • 리소스 스케일링이 지연되면 이미 손실
  • 지표는 보이지만 원인 분석이 느림

Micro-SaaS 포인트

  • 수집량/큐 길이/드롭률 기반 자동 스케일링
  • 서비스별 용량 예측 + 비용 상한선
  • “드롭 발생 전” 사전 경보

실행 체크리스트

  1. Collector 메트릭(큐 길이, dropped spans/logs) 수집
  2. 스파이크 패턴별 스케일 정책 정의
  3. 비용 상한을 넘기면 샘플링 전환
  4. 드롭 0% 목표로 SLO 설정

한 줄 결론

Collector는 스케일이 늦으면 데이터가 사라진다. Auto-Scaler는 비용을 지키면서 손실을 막는 마지막 안전장치다.