예측 스케일링 및 자동 복구 패턴
📅 작성일: 2026-02-12 | 수정일: 2026-02-14 | ⏱️ 읽는 시간: 약 29분
1. 개요
1.1 반응형에서 자율형으로
EKS 운영의 진화는 반응형 → 예측형 → 자율형의 3단계로 이루어집니다.
이 문서의 범위
반응형 스케일링의 한계를 넘어, ML 기반 예측 스케일링과 AI Agent를 통한 자율 복구 패턴을 다룹니다. 특히 Kiro+MCP 기반 프로그래머틱 디버깅과 Kagent/Strands 기반 자동 인시던트 대응을 중심으로 설명합니다.
1.2 왜 예측 운영이 필요한가
- HPA의 한계: 메트릭 임계값 초과 후 반응 → 이미 사용자 영향 발생
- Cold Start 문제: 새 Pod 시작까지 30초-2분 → 트래픽 급증 시 대응 불가
- 노드 프로비저닝 지연: Karpenter도 노드 시작에 1-3분 소요
- 복합 장애: 단일 메트릭으로는 감지 불가한 복합 원인 장애 증가
- 비용 비효율: 과도한 여유 리소스 확보 → 비용 낭비
2. ML 기반 예측 스케일링
2.1 HPA의 한계
HPA(Horizontal Pod Autoscaler)는 현재 메트릭에 반응하므로 구조적 한계가 있습니다.