EKS 기반 Agentic AI 오픈 아키텍처
이 문서를 읽기 전에 다음 문서를 먼저 참조하세요:
- 플랫폼 아키텍처 — Agentic AI Platform의 구조와 핵심 레이어
- 기술적 도전과제 — 5가지 핵심 도전과제
- AI 플랫폼 선택 가이드 — 매니지드 vs 오픈소스 의사결정
- AWS Native 플랫폼 — 매니지드 서비스 기반 대안 접근 (비교 참고)
왜 EKS 기반 오픈 아키텍처인가
AWS Native 플랫 폼은 빠르게 시작할 수 있는 강력한 접근입니다. 하지만 다음과 같은 요구사항이 생기면 EKS 기반 오픈 아키텍처가 필요합니다:
- Open Weight Model 자체 호스팅 (Llama, Qwen, DeepSeek)
- 하이브리드 아키텍처 (온프레미스 GPU + 클라우드)
- 커스텀 Agent 워크플로우 (LangGraph, MCP/A2A)
- 멀티 프로바이더 라우팅 (Bifrost 2-Tier Gateway)
- 세밀한 GPU 비용 최적화 (Spot, MIG, Consolidation)
AWS Native, SageMaker Unified Studio, EKS 오픈 아키텍처, 하이브리드의 5축 비교는 AI 플랫폼 선택 가이드를 참조하세요.
핵심 메시지: AWS Native → EKS는 보완 관계입니다. 현실적인 접근은 AWS Native로 시작하고, 필요에 따라 EKS로 확장하는 것입니다. 두 접근은 동일한 VPC 내에서 공존할 수 있습니다.
EKS Auto Mode로 빠르게 시작
EKS 클러스터 구성 옵션: 컨트롤 플레인과 데이터 플레인
EKS 클러스터 구성은 두 개의 독립된 레이어로 나뉩니다.
Provisioned Control Plane (PCP)
PCP는 컨트롤 플레인 용량을 사전에 고정 티어로 프로비저닝하여, API 서버 성능의 일관성을 보장하는 프리미엄 옵션입니다.
PCP 티어 스펙
| Tier | API 동시성 (seats) | Pod 스케줄링 | etcd DB | SLA | 비용 |
|---|---|---|---|---|---|
| Standard | 동적 (AWS 자동 조정) | 동적 | 8GB | 99.95% | $0.10/hr |
| XL | 1,700 | 167/sec | 16GB | 99.99% | $3.50/hr |
| 2XL | 3,400 | 283/sec | 16GB | 99.99% | $7.00/hr |
| 4XL | 6,800 | 400/sec | 16GB | 99.99% | $13.90/hr |
| 8XL | 13,600 | 400/sec | 16GB | 99.99% | $27.80/hr |
출처: AWS EKS Provisioned Control Plane 공식 문서. K8s 1.30–1.33 기준 seat 수, 1.34+ 증가. PCP 4XL 가격=$13.90/hr (8XL=$27.80/hr).
티어 선택 기준: 메트릭 기반 판단
PCP 티어는 Kubernetes 컨트롤 플레인 메트릭을 기반으로 선택해야 합니다.
핵심 모니터링 메트릭:
| 메트릭 | Prometheus 쿼리 | 판단 기준 |
|---|---|---|
| API Inflight Seats (가장 중요) | apiserver_flowcontrol_current_executing_seats_total | 1,200 seats 지속 초과 → XL 이상 |
| Pod Scheduling Rate | scheduler_schedule_attempts_SCHEDULED | 100/sec 이상 → XL, 200/sec 이상 → 2XL |
| etcd DB Size | apiserver_storage_size_bytes | 10GB 초과 → XL 이상 필요 |
PCP는 컨트롤 플레인 용량 옵션이고, Auto Mode는 데이터 플레인 관리 옵션입니다. 두 기능 은 조합하여 사용할 수 있습니다.
컨트롤 플레인 × 데이터 플레인 비교 및 조합
| 항목 | Standard (기본) | Provisioned Control Plane (PCP) |
|---|---|---|
| 스케일링 | 동적 오토스케일링 (AWS 관리) | 고정 티어 (사전 프로비저닝) |
| API 동시성 (seats) | 동적 (AWS 자동 조정) | XL: 1,700 / 2XL: 3,400 / 4XL: 6,800 / 8XL: 13,600 |
| Pod 스케줄링 속도 | 동적 | XL: 167 / 2XL: 283 / 4XL~8XL: 400 pods/sec |
| etcd DB 크기 | 8 GB | 16 GB |
| SLA | 99.95% | 99.99% |
| 비용 | $0.10/hr ($73/월) | 티어별 과금 (AWS 가격 페이지 참조) |
| Tier 선택 기준 | - | API Inflight Seats + Pod Scheduling Rate + etcd DB Size (노드 수 아님) |
| 항목 | Managed Node Groups | Karpenter | EKS Auto Mode |
|---|---|---|---|
| 노드 프로비저닝 | 수동 (ASG 기반) | 자동 (Pod 요구사항 기반) | AWS 완전 자동 |
| GPU 최적화 | 인스턴스 타입 수동 지정 | 자동 GPU 선택 + 통합 | 자동 + 기본 NodeClass 제공 |
| 스케일링 속도 | 느림 (ASG → EC2) | 빠름 (직접 EC2 API) | 빠름 (내장 Karpenter) |
| Add-on 관리 | 수동 (CNI, CSI 등) | 수동 | ✅ 자동 (CNI, CSI, CoreDNS) |
| 보안 패치 | 수동 AMI 업데이트 | 수동 | ✅ 자동 적용 |
| 비용 최적화 | 제한적 | Consolidation + Spot | Consolidation + 7.5% 할증 |
| 운영 부담 | 높음 | 중간 | 낮음 |
| 조합 | 컨트롤 플레인 | 데이터 플레인 | 적합한 시나리오 |
|---|---|---|---|
| 일반 AI 서비스 | Standard | Auto Mode | 소~중규모 추론 서비스, 운영 최소화 |
| GPU 최적화 플랫폼 | Standard | Karpenter | 멀티 GPU, Spot 활용, 비용 최적화 |
| 대규모 AI 플랫폼 | PCP (tier-xl+) | Auto Mode | API 성능 보장 (1,700+ seats) + 운영 자동화 |
| 초대규모 학습 클러 스터 | PCP (tier-4xl+) | Karpenter | API 동시성 6,800+, GPU 세밀 제어 필요 |
- 소규모 (PoC/데모): Standard + Auto Mode — 최소 운영 부담, 99.95% SLA
- 중규모 (프로덕션 추론): Standard + Karpenter — GPU 비용 최적화, 99.95% SLA
- 대규모 (엔터프라이즈 AI): PCP XL + Auto Mode — API seats ≤ 1,700, 99.99% SLA
- 초대규모 (학습 클러스터): PCP 4XL+ + Karpenter — API seats ≤ 6,800+, GPU 세밀 제어
Amazon EKS와 Karpenter: Kubernetes의 장점 극대화
Amazon EKS와 Karpenter의 조합은 Kubernetes의 장점을 극대화하여 완전 자동화된 최적의 인프라를 구현합니다. Karpenter는 AI 워크로드에 최적화된 노드 프로비저닝을 제공하며, 기존 Cluster Autoscaler 대비 빠른 스케일링과 세밀한 인스턴스 선택이 가능합니다.
Karpenter v1.13+ (GA since v1.0), NodePool 설정, GPU 인스턴스 비교, 비용 최적화 전략은 GPU 리소스 관리를 참조하세요.
| 계층 | 역할 | 제공 가치 |
|---|---|---|
| Amazon EKS | 관리형 Kubernetes Control Plane | 운영 부담 제거, 고가용성, 보안 |
| Karpenter | 지능형 노드 프로비저닝 | Just-in-Time GPU 프로비저닝, 비용 최적화 |
| AWS 인프라 | GPU 인스턴스, 스토리지, 네트워크 | 다양한 GPU 옵션, EFA 고속 네트워크, Spot 인스턴스 |