예측 운영
핵심: 반응형 운영에서 예측형 운영으로 — ML 기반 예측 스케일링, 이상 감지, 자동 최적화
1. 개요
반응형에서 예측형으로
전통적인 EKS 운영은 반응형입니다. HPA는 CPU/메모리가 임계값을 초과한 후 스케일링을 시작하므로, 트래픽 급증 시 사용자에게 이미 영향이 발생합니다.
예측 운영은 ML 모델을 통해 트래픽 패턴을 학습하고, 증가 전에 미리 스케일아웃하여 서비스 품질을 유지합니다.
반응형 스케일링의 문제:
HPA 임계값 초과 → 스케일아웃 시작 → Pod 시작 30초-2분
Karpenter 노드 프로비저닝 → 1-3분 추가 지연
→ 성능 저하 구간 발생 → 사용자 영향
예측 스케일링의 해결:
ML 예측 (30분 전) → 사전 스케일아웃 → 실제 트래픽 도착
→ 노드/Pod 준비 완료 → 성능 저하 없음
핵심 가치
- 사용자 영향 최소화: Cold Start 지연 제거
- 비용 효율: 과도한 여유 리소스 확보 불필요, 필요한 시점에만 확장
- 복합 장애 대응: 단일 메트릭이 아닌 다차원 이상 감지
- 자동 최적화: VPA + AI로 리소스 Right-Sizing 자동화
2. ML 기반 예측 스케일링
2.1 HPA의 한계
HPA(Horizontal Pod Autoscaler)는 현재 메트릭에만 반응하므로 구조적 한계가 있습니다.
[HPA 반응형]
트래픽 ████████████████████████░░░░░░░░░
↑ 임계값 초과
Pod 수 ██████████░░░░████████████████████
↑ 스케일아웃 시작 (지연)
사용자 ✓✓✓✓✓✓✓✓✗✗✗✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓
경험 ↑ 성능 저하 구간
[ML 예측형]
트래픽 ████████████████████████░░░░░░░░░
↑ 예측 시점 (30분 전)
Pod 수 ██████████████████████████████████
↑ 사전 스케일아웃
사용자 ✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓✓
경험 (성능 저하 없음)
2.2 시계열 예측 모델
EKS 워크로드의 트래픽 패턴을 예측하는 대표적 ML 모델: