EKS 기반 Agentic AI 오픈 아키텍처
이 문서를 읽기 전에 다음 문서를 먼저 참조하세요:
- 플랫폼 아키텍처 — Agentic AI Platform의 구조와 핵심 레이어
- 기술적 도전과제 — 5가지 핵심 도전과제
- AI 플랫폼 선택 가이드 — 매니지드 vs 오픈소스 의사결정
- AWS Native 플랫폼 — 매니지드 서비스 기반 대안 접근 (비교 참고)
왜 EKS 기반 오픈 아키텍처인가
AWS Native 플랫폼은 빠르게 시작할 수 있는 강력한 접근입니다. 하지만 다음과 같은 요구사항이 생기면 EKS 기반 오픈 아키텍처가 필요합니다:
- Open Weight Model 자체 호스팅 (Llama, Qwen, DeepSeek)
- 하이브리드 아키텍처 (온프레미스 GPU + 클라우드)
- 커스텀 Agent 워크플로우 (LangGraph, MCP/A2A)
- 멀티 프로바이더 라우팅 (Bifrost 2-Tier Gateway)
- 세밀한 GPU 비용 최적화 (Spot, MIG, Consolidation)
AWS Native, SageMaker Unified Studio, EKS 오픈 아키텍처, 하이브리드의 5축 비교는 AI 플랫폼 선택 가이드를 참조하세요.
핵심 메시지: AWS Native → EKS는 보완 관계입니다. 현실적인 접근은 AWS Native로 시작하고, 필요에 따라 EKS로 확장하는 것입니다. 두 접근은 동일한 VPC 내에서 공존할 수 있습니다.
EKS Auto Mode로 빠르게 시작
EKS 클러스터 구성 옵션: 컨트롤 플레인과 데이터 플레인
EKS 클러스터 구성은 두 개의 독립된 레이어로 나뉩니다.
Provisioned Control Plane (PCP)
PCP는 컨트롤 플레인 용량을 사전에 고정 티어로 프로비저닝하여, API 서버 성능의 일관성을 보장하는 프리미엄 옵션입니다.
PCP 티어 스펙
| Tier | API 동시성 (seats) | Pod 스케줄링 | etcd DB | SLA | 비용 |
|---|---|---|---|---|---|
| Standard | 동적 (AWS 자동 조정) | 동적 | 8GB | 99.95% | $0.10/hr |
| XL | 1,700 | 167/sec | 16GB | 99.99% | - |
| 2XL | 3,400 | 283/sec | 16GB | 99.99% | - |
| 4XL | 6,800 | 400/sec | 16GB | 99.99% | - |
| 8XL | 13,600 | 400/sec | 16GB | 99.99% | - |
출처: AWS EKS Provisioned Control Plane 공식 문서 (K8s 1.30+ 기준). PCP 티어별 가격은 AWS 공식 가격 페이지를 참조하세요.
티어 선택 기준: 메트릭 기반 판단
PCP 티어는 Kubernetes 컨트롤 플레인 메트릭을 기반으로 선택해야 합니다.
핵심 모니터링 메트릭:
| 메트릭 | Prometheus 쿼리 | 판단 기준 |
|---|---|---|
| API Inflight Seats (가장 중요) | apiserver_flowcontrol_current_executing_seats_total | 1,200 seats 지속 초과 → XL 이상 |
| Pod Scheduling Rate | scheduler_schedule_attempts_SCHEDULED | 100/sec 이상 → XL, 200/sec 이상 → 2XL |
| etcd DB Size | apiserver_storage_size_bytes | 10GB 초과 → XL 이상 필요 |
PCP는 컨트롤 플레인 용량 옵션이고, Auto Mode는 데이터 플레인 관리 옵션입니다. 두 기능은 조합하여 사용할 수 있습니다.
컨트롤 플레인 × 데이터 플레인 비교 및 조합
| 항목 | Standard (기본) | Provisioned Control Plane (PCP) |
|---|---|---|
| 스케일링 | 동적 오토스케일링 (AWS 관리) | 고정 티어 (사전 프로비저닝) |
| API 동시성 (seats) | 동적 (AWS 자동 조정) | XL: 1,700 / 2XL: 3,400 / 4XL: 6,800 / 8XL: 13,600 |
| Pod 스케줄링 속도 | 동적 | XL: 167 / 2XL: 283 / 4XL~8XL: 400 pods/sec |
| etcd DB 크기 | 8 GB | 16 GB |
| SLA | 99.95% | 99.99% |
| 비용 | $0.10/hr ($73/월) | 티어별 과금 (AWS 가격 페이지 참조) |
| Tier 선택 기준 | - | API Inflight Seats + Pod Scheduling Rate + etcd DB Size (노드 수 아님) |
| 항목 | Managed Node Groups | Karpenter | EKS Auto Mode |
|---|---|---|---|
| 노드 프로비저닝 | 수동 (ASG 기반) | 자동 (Pod 요구사항 기반) | AWS 완전 자동 |
| GPU 최적화 | 인스턴스 타입 수동 지정 | 자동 GPU 선택 + 통합 | 자동 + 기본 NodeClass 제공 |
| 스케일링 속도 | 느림 (ASG → EC2) | 빠름 (직접 EC2 API) | 빠름 (내장 Karpenter) |
| Add-on 관리 | 수동 (CNI, CSI 등) | 수동 | ✅ 자동 (CNI, CSI, CoreDNS) |
| 보안 패치 | 수동 AMI 업데이트 | 수동 | ✅ 자동 적용 |
| 비용 최적화 | 제한적 | Consolidation + Spot | Consolidation + 7.5% 할증 |
| 운영 부담 | 높음 | 중간 | 낮음 |
| 조합 | 컨트롤 플레인 | 데이터 플레인 | 적합한 시나리오 |
|---|---|---|---|
| 일반 AI 서비스 | Standard | Auto Mode | 소~중규모 추론 서비스, 운영 최소화 |
| GPU 최적화 플랫폼 | Standard | Karpenter | 멀티 GPU, Spot 활용, 비용 최적화 |
| 대규모 AI 플랫폼 | PCP (tier-xl+) | Auto Mode | API 성능 보장 (1,700+ seats) + 운영 자동화 |
| 초대규모 학습 클러스터 | PCP (tier-4xl+) | Karpenter | API 동시성 6,800+, GPU 세밀 제어 필요 |
- 소규모 (PoC/데모): Standard + Auto Mode — 최소 운영 부담, 99.95% SLA
- 중규모 (프로덕션 추론): Standard + Karpenter — GPU 비용 최적화, 99.95% SLA
- 대규모 (엔터프라이즈 AI): PCP XL + Auto Mode — API seats ≤ 1,700, 99.99% SLA
- 초대규모 (학습 클러스터): PCP 4XL+ + Karpenter — API seats ≤ 6,800+, GPU 세밀 제어
Amazon EKS와 Karpenter: Kubernetes의 장점 극대화
Amazon EKS와 Karpenter의 조합은 Kubernetes의 장점을 극대화하여 완전 자동화된 최적의 인프라를 구현합니다. Karpenter는 AI 워크로드에 최적화된 노드 프로비저닝을 제공하며, 기존 Cluster Autoscaler 대비 빠른 스케일링과 세밀한 인스턴스 선택이 가능합니다.
Karpenter v1.2+ GA 기능, NodePool 설 정, GPU 인스턴스 비교, 비용 최적화 전략은 GPU 리소스 관리를 참조하세요.
| 계층 | 역할 | 제공 가치 |
|---|---|---|
| Amazon EKS | 관리형 Kubernetes Control Plane | 운영 부담 제거, 고가용성, 보안 |
| Karpenter | 지능형 노드 프로비저닝 | Just-in-Time GPU 프로비저닝, 비용 최적화 |
| AWS 인프라 | GPU 인스턴스, 스토리지, 네트워크 | 다양한 GPU 옵션, EFA 고속 네트워크, Spot 인스턴스 |
EKS Auto Mode: 완전 자동화의 완성
EKS Auto Mode는 Karpenter를 포함한 핵심 컴포넌트들을 자동으로 구성하고 관리합니다.
EKS Auto Mode vs 수동 구성 비교
| 구성 요소 | 수동 구성 (EKS Standard) | EKS Auto Mode |
|---|---|---|
| Karpenter 설치 | Helm 차트 수동 설치, IAM 역할 구성 | ✅ 자동 설치 및 구성 |
| NodePool 관리 | 직접 정의 필요 | 기본 제공 + 커스텀 가능 |
| VPC CNI | 수동 설치 및 업그레이드 | ✅ 자동 관리 |
| EBS CSI Driver | 수동 설치, IRSA 구성 | ✅ 자동 관리 |
| CoreDNS | 수동 스케일링 | ✅ 자동 스케일링 |
| 보안 패치 | 수동 적용 | ✅ 자동 적용 |
| 버전 업그레이드 | 수동 계획 및 실행 | ✅ 자동 업그레이드 |
GPU 워크로드를 위한 EKS Auto Mode 설정
EKS Auto Mode는 Karpenter를 자동으로 구성하고 관리합니다. GPU NodePool만 추가하면 즉시 AI 워크로드 배포가 가능합니다.
GPU NodePool 구성, Spot/On-Demand 전략, Consolidation 정책 등 상세 설정은 GPU 리소스 관리를 참조하세요.
EKS Auto Mode는 NVIDIA GPU를 포함한 가속 컴퓨팅 인스턴스를 완벽히 지원합니다.
re:Invent 2024/2025 신규 기능:
- EKS Hybrid Nodes (GA): 온프레미스 GPU 인프라를 EKS 클러스터에 통합
- Enhanced Pod Identity v2: 크로스 계정 IAM 역할 지원
- Native Inferentia/Trainium Support: Neuron SDK 자동 구성
- Provisioned Control Plane: 대규모 AI 학습 워크로드를 위한 사전 프로비저닝
Auto Mode에서 배포 가능한 Agentic AI 컴포넌트
EKS Auto Mode 위에서 Agentic AI 플랫폼의 모든 핵심 컴포넌트를 배포할 수 있습니다.
추론: vLLM + llm-d
vLLM은 LLM 추론 전용 엔진이며, llm-d는 KV Cache 상태를 고려한 지능형 라우팅을 제공합니다.
- vLLM: LLM 추론 전용 (GPT, Claude, Llama 등) — PagedAttention 기반 KV Cache 최적화
- Triton Inference Server: 비-LLM 추론 담당 (임베딩, 리랭킹, Whisper STT)
- llm-d: KV Cache-aware 라우팅으로 Prefix cache 히트율 극대화
상세 설정은 vLLM 모델 서빙 및 llm-d 분산 추론을 참조하세요.
게이트웨이: kgateway + Bifrost (2-Tier Gateway)
2-Tier Gateway 아키텍처로 트래픽 관리와 모델 라우팅을 분리합니다:
- Tier 1 (kgateway): Gateway API 기반 인증, Rate Limiting, 트래픽 관리
- Tier 2 (Bifrost): 모델 추상화, Fallback, 비용 추적, Cascade Routing
상세 아키텍처는 Inference Gateway 라우팅을 참조하세요.