본문으로 건너뛰기

EKS 기반 Agentic AI 오픈 아키텍처

선행 문서

이 문서를 읽기 전에 다음 문서를 먼저 참조하세요:


왜 EKS 기반 오픈 아키텍처인가

AWS Native 플랫폼은 빠르게 시작할 수 있는 강력한 접근입니다. 하지만 다음과 같은 요구사항이 생기면 EKS 기반 오픈 아키텍처가 필요합니다:

  • Open Weight Model 자체 호스팅 (Llama, Qwen, DeepSeek)
  • 하이브리드 아키텍처 (온프레미스 GPU + 클라우드)
  • 커스텀 Agent 워크플로우 (LangGraph, MCP/A2A)
  • 멀티 프로바이더 라우팅 (Bifrost 2-Tier Gateway)
  • 세밀한 GPU 비용 최적화 (Spot, MIG, Consolidation)
플랫폼 비교

AWS Native, SageMaker Unified Studio, EKS 오픈 아키텍처, 하이브리드의 5축 비교는 AI 플랫폼 선택 가이드를 참조하세요.

핵심 메시지: AWS Native → EKS는 보완 관계입니다. 현실적인 접근은 AWS Native로 시작하고, 필요에 따라 EKS로 확장하는 것입니다. 두 접근은 동일한 VPC 내에서 공존할 수 있습니다.


EKS Auto Mode로 빠르게 시작

EKS 클러스터 구성 옵션: 컨트롤 플레인과 데이터 플레인

EKS 클러스터 구성은 두 개의 독립된 레이어로 나뉩니다.

Provisioned Control Plane (PCP)

PCP는 컨트롤 플레인 용량을 사전에 고정 티어로 프로비저닝하여, API 서버 성능의 일관성을 보장하는 프리미엄 옵션입니다.

PCP 티어 스펙

TierAPI 동시성 (seats)Pod 스케줄링etcd DBSLA비용
Standard동적 (AWS 자동 조정)동적8GB99.95%$0.10/hr
XL1,700167/sec16GB99.99%-
2XL3,400283/sec16GB99.99%-
4XL6,800400/sec16GB99.99%-
8XL13,600400/sec16GB99.99%-

출처: AWS EKS Provisioned Control Plane 공식 문서 (K8s 1.30+ 기준). PCP 티어별 가격은 AWS 공식 가격 페이지를 참조하세요.

티어 선택 기준: 메트릭 기반 판단

워커 노드 수는 PCP 티어 선택 기준이 아닙니다

PCP 티어는 Kubernetes 컨트롤 플레인 메트릭을 기반으로 선택해야 합니다.

핵심 모니터링 메트릭:

메트릭Prometheus 쿼리판단 기준
API Inflight Seats (가장 중요)apiserver_flowcontrol_current_executing_seats_total1,200 seats 지속 초과 → XL 이상
Pod Scheduling Ratescheduler_schedule_attempts_SCHEDULED100/sec 이상 → XL, 200/sec 이상 → 2XL
etcd DB Sizeapiserver_storage_size_bytes10GB 초과 → XL 이상 필요
PCP vs Auto Mode — 서로 다른 레이어

PCP는 컨트롤 플레인 용량 옵션이고, Auto Mode는 데이터 플레인 관리 옵션입니다. 두 기능은 조합하여 사용할 수 있습니다.

컨트롤 플레인 × 데이터 플레인 비교 및 조합

⬆️ 컨트롤 플레인: Standard vs Provisioned (PCP)
항목Standard (기본)Provisioned Control Plane (PCP)
스케일링동적 오토스케일링 (AWS 관리)고정 티어 (사전 프로비저닝)
API 동시성 (seats)동적 (AWS 자동 조정)XL: 1,700 / 2XL: 3,400 / 4XL: 6,800 / 8XL: 13,600
Pod 스케줄링 속도동적XL: 167 / 2XL: 283 / 4XL~8XL: 400 pods/sec
etcd DB 크기8 GB16 GB
SLA99.95%99.99%
비용$0.10/hr ($73/월)티어별 과금 (AWS 가격 페이지 참조)
Tier 선택 기준-API Inflight Seats + Pod Scheduling Rate + etcd DB Size (노드 수 아님)
⬇️ 데이터 플레인: MNG vs Karpenter vs Auto Mode
항목Managed Node GroupsKarpenterEKS Auto Mode
노드 프로비저닝수동 (ASG 기반)자동 (Pod 요구사항 기반)AWS 완전 자동
GPU 최적화인스턴스 타입 수동 지정자동 GPU 선택 + 통합자동 + 기본 NodeClass 제공
스케일링 속도느림 (ASG → EC2)빠름 (직접 EC2 API)빠름 (내장 Karpenter)
Add-on 관리수동 (CNI, CSI 등)수동✅ 자동 (CNI, CSI, CoreDNS)
보안 패치수동 AMI 업데이트수동✅ 자동 적용
비용 최적화제한적Consolidation + SpotConsolidation + 7.5% 할증
운영 부담높음중간낮음
🔗 권장 조합 매트릭스
조합컨트롤 플레인데이터 플레인적합한 시나리오
일반 AI 서비스StandardAuto Mode소~중규모 추론 서비스, 운영 최소화
GPU 최적화 플랫폼StandardKarpenter멀티 GPU, Spot 활용, 비용 최적화
대규모 AI 플랫폼PCP (tier-xl+)Auto ModeAPI 성능 보장 (1,700+ seats) + 운영 자동화
초대규모 학습 클러스터PCP (tier-4xl+)KarpenterAPI 동시성 6,800+, GPU 세밀 제어 필요
AI 플랫폼 규모별 권장 구성
  • 소규모 (PoC/데모): Standard + Auto Mode — 최소 운영 부담, 99.95% SLA
  • 중규모 (프로덕션 추론): Standard + Karpenter — GPU 비용 최적화, 99.95% SLA
  • 대규모 (엔터프라이즈 AI): PCP XL + Auto Mode — API seats ≤ 1,700, 99.99% SLA
  • 초대규모 (학습 클러스터): PCP 4XL+ + Karpenter — API seats ≤ 6,800+, GPU 세밀 제어

Amazon EKS와 Karpenter: Kubernetes의 장점 극대화

Amazon EKS와 Karpenter의 조합은 Kubernetes의 장점을 극대화하여 완전 자동화된 최적의 인프라를 구현합니다. Karpenter는 AI 워크로드에 최적화된 노드 프로비저닝을 제공하며, 기존 Cluster Autoscaler 대비 빠른 스케일링과 세밀한 인스턴스 선택이 가능합니다.

Karpenter 상세 가이드

Karpenter v1.2+ GA 기능, NodePool 설정, GPU 인스턴스 비교, 비용 최적화 전략은 GPU 리소스 관리를 참조하세요.

EKS + Karpenter + AWS 인프라 계층
계층역할제공 가치
Amazon EKS관리형 Kubernetes Control Plane운영 부담 제거, 고가용성, 보안
Karpenter지능형 노드 프로비저닝Just-in-Time GPU 프로비저닝, 비용 최적화
AWS 인프라GPU 인스턴스, 스토리지, 네트워크다양한 GPU 옵션, EFA 고속 네트워크, Spot 인스턴스

EKS Auto Mode: 완전 자동화의 완성

EKS Auto Mode는 Karpenter를 포함한 핵심 컴포넌트들을 자동으로 구성하고 관리합니다.

EKS Auto Mode vs 수동 구성 비교

EKS Auto Mode vs 수동 구성
구성 요소수동 구성 (EKS Standard)EKS Auto Mode
Karpenter 설치Helm 차트 수동 설치, IAM 역할 구성✅ 자동 설치 및 구성
NodePool 관리직접 정의 필요기본 제공 + 커스텀 가능
VPC CNI수동 설치 및 업그레이드✅ 자동 관리
EBS CSI Driver수동 설치, IRSA 구성✅ 자동 관리
CoreDNS수동 스케일링✅ 자동 스케일링
보안 패치수동 적용✅ 자동 적용
버전 업그레이드수동 계획 및 실행✅ 자동 업그레이드

GPU 워크로드를 위한 EKS Auto Mode 설정

EKS Auto Mode는 Karpenter를 자동으로 구성하고 관리합니다. GPU NodePool만 추가하면 즉시 AI 워크로드 배포가 가능합니다.

NodePool 설정 상세

GPU NodePool 구성, Spot/On-Demand 전략, Consolidation 정책 등 상세 설정은 GPU 리소스 관리를 참조하세요.

EKS Auto Mode와 GPU 지원

EKS Auto Mode는 NVIDIA GPU를 포함한 가속 컴퓨팅 인스턴스를 완벽히 지원합니다.

re:Invent 2024/2025 신규 기능:

  • EKS Hybrid Nodes (GA): 온프레미스 GPU 인프라를 EKS 클러스터에 통합
  • Enhanced Pod Identity v2: 크로스 계정 IAM 역할 지원
  • Native Inferentia/Trainium Support: Neuron SDK 자동 구성
  • Provisioned Control Plane: 대규모 AI 학습 워크로드를 위한 사전 프로비저닝

Auto Mode에서 배포 가능한 Agentic AI 컴포넌트

EKS Auto Mode 위에서 Agentic AI 플랫폼의 모든 핵심 컴포넌트를 배포할 수 있습니다.

추론: vLLM + llm-d

vLLM은 LLM 추론 전용 엔진이며, llm-d는 KV Cache 상태를 고려한 지능형 라우팅을 제공합니다.

모델 서빙 스택 구성
  • vLLM: LLM 추론 전용 (GPT, Claude, Llama 등) — PagedAttention 기반 KV Cache 최적화
  • Triton Inference Server: 비-LLM 추론 담당 (임베딩, 리랭킹, Whisper STT)
  • llm-d: KV Cache-aware 라우팅으로 Prefix cache 히트율 극대화

상세 설정은 vLLM 모델 서빙llm-d 분산 추론을 참조하세요.

게이트웨이: kgateway + Bifrost (2-Tier Gateway)

2-Tier Gateway 아키텍처로 트래픽 관리와 모델 라우팅을 분리합니다:

  • Tier 1 (kgateway): Gateway API 기반 인증, Rate Limiting, 트래픽 관리
  • Tier 2 (Bifrost): 모델 추상화, Fallback, 비용 추적, Cascade Routing

상세 아키텍처는 Inference Gateway 라우팅을 참조하세요.

Agent: LangGraph + NeMo Guardrails + MCP/A2A

EKS에서 Agent 워크플로우는 다음으로 구성됩니다:

  • LangGraph: 멀티스텝 Agent 워크플로우 정의, 조건부 분기, 병렬 실행
  • NeMo Guardrails: 프롬프트 인젝션 방어, PII 유출 방지, 출력 검증 — 도구 비교와 구현 상세는 AI Gateway Guardrails 참조
  • MCP: Agent Ready 앱이 표준화된 방식으로 Tool 제공
  • A2A: Agent 간 안전하고 효율적인 통신
  • Redis (ElastiCache): LangGraph checkpointer로 상태 관리

Agent Pod는 KEDA를 통해 Redis 큐 길이 기반으로 자동 스케일링됩니다.

상세 내용은 Kagent Agent 관리AWS Native 플랫폼 — AgentCore & MCP를 참조하세요. Guardrails 기술 스택(Input/Output Guard, Tool Allow-list, kgateway/Bifrost 통합)은 AI Gateway Guardrails를 참조하세요.

RAG + 옵저버빌리티

  • Milvus: 벡터 DB — RAG 시스템 핵심 (상세)
  • Langfuse: 프로덕션 LLM 트레이싱, 토큰 비용 추적 (아키텍처, 배포 가이드)
  • Prometheus + Grafana: 인프라 메트릭 모니터링

EKS 기반 간편 배포

구축 방식별 소요 시간
구축 방식소요 시간운영 복잡도비용 효율성
전통적 방식6-11주높음낮음
EKS 기반1-2주낮음높음

솔루션별 EKS 배포 방법

EKS 통합 이점
솔루션배포 방법EKS 통합 이점
KarpenterEKS Auto Mode (자동)설치/구성 불필요, 자동 업그레이드
KgatewayHelm ChartALB Controller 연동, ACM 인증서 자동 관리
BifrostHelm ChartSecrets Manager 연동, IAM 기반 인증
vLLMHelm ChartGPU NodePool 자동 프로비저닝
llm-dHelm ChartKarpenter 연동 자동 스케일링
LangfuseHelm ChartRDS/Aurora 연동, S3 스토리지
KAgentHelm ChartPod Identity 기반 AWS 서비스 접근
KEDAEKS Addon관리형 설치, CloudWatch 메트릭 연동

간편 배포 예시

배포 가이드는 Reference Architecture 참조하세요.

GPU 비용 최적화 상세

Spot 인스턴스 활용, Consolidation, 시간대별 스케줄 기반 비용 관리 등 GPU 비용 최적화 전략은 GPU 리소스 관리 문서를 참조하세요.

GPU 보안 및 트러블슈팅

GPU Pod 보안 정책, Network Policy, IAM, MIG 격리 및 GPU 트러블슈팅 가이드는 EKS GPU 노드 전략 문서를 참조하세요.


EKS Capability로 인프라 운영 부담 최소화

EKS Capability란?

EKS Capability는 Amazon EKS에서 특정 워크로드를 효과적으로 운영하기 위해 검증된 오픈소스 도구와 AWS 서비스를 통합하여 제공하는 플랫폼 수준의 기능입니다.

Agentic AI를 위한 핵심 EKS Capability

EKS 고급 기능
EKS Capability역할Agentic AI 활용지원 방식
ACK (AWS Controllers for Kubernetes)AWS 서비스의 Kubernetes 네이티브 관리S3 모델 저장소, RDS 메타데이터, SageMaker 학습 작업EKS Add-on
KRO (Kubernetes Resource Orchestrator)복합 리소스 추상화 및 템플릿화AI 추론 스택, 학습 파이프라인 원클릭 배포EKS Add-on
Argo CDGitOps 기반 지속적 배포모델 서빙 배포 자동화, 롤백, 환경 동기화EKS Add-on
Argo Workflows는 별도 설치 필요

Argo Workflows는 EKS Capability로 공식 지원되지 않으므로 직접 설치가 필요합니다.

배포 가이드는 Argo Workflows 공식 문서를 참조하세요.


ACK (AWS Controllers for Kubernetes)

ACK는 Kubernetes Custom Resource를 통해 AWS 서비스를 직접 프로비저닝하고 관리합니다. EKS Add-on으로 간편하게 설치할 수 있습니다.

AI 플랫폼에서 ACK 활용 사례:

ACK 컨트롤러 활용
AWS 서비스ACK ControllerAgentic AI 활용
S3`s3.services.k8s.aws`모델 아티팩트 저장소, 학습 데이터 버킷
RDS/Aurora`rds.services.k8s.aws`Langfuse 백엔드, 메타데이터 저장소
SageMaker`sagemaker.services.k8s.aws`모델 학습 작업, 엔드포인트 배포
Secrets Manager`secretsmanager.services.k8s.aws`API 키, 모델 자격증명 관리
ECR`ecr.services.k8s.aws`컨테이너 이미지 레지스트리

ACK를 이용한 S3 버킷 생성 예시:

apiVersion: s3.services.k8s.aws/v1alpha1
kind: Bucket
metadata:
name: agentic-ai-models
namespace: ai-platform
spec:
name: agentic-ai-models-prod
versioning:
status: Enabled
encryption:
rules:
- applyServerSideEncryptionByDefault:
sseAlgorithm: aws:kms
tags:
- key: Project
value: agentic-ai

KRO (Kubernetes Resource Orchestrator)

KRO는 여러 Kubernetes 리소스와 AWS 리소스를 하나의 추상화된 단위로 조합하여 복잡한 인프라를 단순하게 배포합니다.

KRO로 AI 추론 스택을 단일 리소스로 배포:

# 단일 리소스로 전체 스택 배포
apiVersion: v1alpha1
kind: AIInferenceStack
metadata:
name: llama-inference
namespace: ai-platform
spec:
modelName: llama-3-70b
gpuType: g5.12xlarge
minReplicas: 2
maxReplicas: 20

Argo 기반 ML 파이프라인 자동화

Argo WorkflowsArgo CD를 결합하면 AI 모델의 학습, 평가, 배포까지 전체 MLOps 파이프라인을 GitOps 방식으로 자동화할 수 있습니다.

ACK + KRO + ArgoCD 통합 아키텍처

자동화 구성요소
구성요소역할자동화 범위
Argo CDGitOps 배포 자동화애플리케이션 배포, 롤백, 동기화
Argo WorkflowsML 파이프라인 오케스트레이션학습, 평가, 모델 등록 워크플로
KRO복합 리소스 추상화K8s + AWS 리소스를 단일 단위로 관리
ACKAWS 리소스 선언적 관리S3, RDS, SageMaker 등 AWS 서비스
KarpenterGPU 노드 프로비저닝Just-in-Time 인스턴스 프로비저닝
완전 자동화의 이점 — 인프라 운영을 EKS에 위임하고 Agent 개발에 집중
  • 개발자: Git push만으로 모델 배포
  • 플랫폼 팀: 인프라 관리 부담 최소화
  • 비용 최적화: 필요한 리소스만 동적 프로비저닝
  • 일관성: 모든 환경에서 동일한 배포 방식

결론 및 다음 단계

점진적 여정: AWS Native → Auto Mode → EKS Capability

EKS Auto Mode: 권장 시작점

EKS Auto Mode 이점
이점설명
즉시 시작 가능Karpenter 설치/구성 없이 클러스터 생성 즉시 GPU 워크로드 배포
자동 업그레이드Karpenter, CNI, CSI 등 핵심 컴포넌트 자동 업데이트
보안 패치 자동화보안 취약점 패치 자동 적용
커스텀 확장 가능GPU NodePool, EFA NodeClass 등 필요시 커스텀 설정 추가

도전과제별 해결 방안 요약

도전과제별 솔루션 요약
도전과제Kubernetes 기반EKS Auto Mode + Karpenter기대 효과
GPU 리소스 관리DCGM + PrometheusNodePool 기반 통합 관리 + MIG리소스 활용률 40% 향상
추론 라우팅kgateway + Bifrostllm-d KV Cache-aware 라우팅프로비저닝 시간 50% 단축
LLMOps 관찰성LangSmith (Dev) + Langfuse (Prod)Spot + Consolidation (자동 활성화)비용 50-70% 절감
Agent 오케스트레이션LangGraph + NeMo GuardrailsAgent Pod 자동 스케일링안전성 및 확장성 확보
모델 공급망MLflow + Kubeflow + ArgoCDTraining NodePool + EFA학습 효율성 30% 향상

EKS Auto Mode GPU 제약사항과 하이브리드 전략

EKS Auto Mode는 일반 워크로드와 기본 GPU 추론에 최적이지만, GPU 고급 기능에는 제약이 있습니다.

워크로드 유형Auto Mode 적합성이유
API Gateway, Agent Framework적합Non-GPU, 자동 스케일링 충분
Observability Stack적합Non-GPU, 관리 부담 최소화
기본 GPU 추론 (전체 GPU)적합AWS 관리 GPU 스택으로 충분
MIG 파티셔닝 필요부적합NodeClass read-only로 MIG 분할 불가 (GPU Operator 자체는 설치 가능)
Run:ai GPU 스케줄링가능GPU Operator 설치 후 Device Plugin 레이블 비활성화

권장 하이브리드 구성: Auto Mode(일반 워크로드) + Karpenter(GPU 고급 기능)를 하나의 클러스터에서 운영합니다. 상세 구성은 EKS GPU 노드 전략을 참조하세요.

Gateway API 제약 및 우회

EKS Auto Mode의 빌트인 로드밸런서는 Kubernetes Gateway API를 직접 지원하지 않습니다. kgateway를 사용하려면 별도의 Service (type: LoadBalancer)로 NLB를 프로비저닝합니다.

apiVersion: v1
kind: Service
metadata:
name: kgateway-proxy
namespace: kgateway-system
annotations:
service.beta.kubernetes.io/aws-load-balancer-type: "external"
service.beta.kubernetes.io/aws-load-balancer-nlb-target-type: "ip"
service.beta.kubernetes.io/aws-load-balancer-scheme: "internet-facing"
spec:
type: LoadBalancer
selector:
app: kgateway-proxy
ports:
- name: https
port: 443
targetPort: 8443

2-Tier Gateway 아키텍처의 전체 설계는 LLM Gateway 2-Tier 아키텍처를 참조하세요.

핵심 권장사항

  1. EKS Auto Mode로 시작: 새 클러스터는 Auto Mode로 생성하여 Karpenter 자동 구성 활용
  2. GPU 고급 기능은 Karpenter 노드: MIG, Run:ai 등 GPU Operator 필요 시 Karpenter NodePool 추가
  3. GPU NodePool 커스텀 정의: 워크로드 특성에 맞는 GPU NodePool 추가 (추론/학습/실험 분리)
  4. Spot 인스턴스 적극 활용: 추론 워크로드의 70% 이상을 Spot으로 운영
  5. Consolidation 기본 활성화: EKS Auto Mode에서 자동 활성화된 Consolidation 활용
  6. KEDA 연동: 메트릭 기반 Pod 스케일링과 Karpenter 노드 프로비저닝 연계

배포 경로 선택하기

적합한 경우:

  • 스타트업 및 소규모 팀
  • Kubernetes 초보 팀
  • 표준 Agentic AI 워크로드

시작하기:

배포 가이드는 EKS Auto Mode 공식 문서를 참조하세요.

장점: 인프라 관리 부담 제로, AWS 최적화 기본 설정, 자동 보안 패치

규모 확장 시 참고 문서

영역문서내용
GPU 노드 전략EKS GPU 노드 전략Auto Mode + Karpenter + Hybrid Node + 보안/트러블슈팅
GPU 리소스 관리GPU 리소스 관리Karpenter 스케일링, KEDA, DRA, 비용 최적화
NVIDIA GPU 스택NVIDIA GPU 스택GPU Operator, DCGM, MIG, Time-Slicing
모델 서빙vLLM 모델 서빙vLLM 설정, 성능 최적화
분산 추론llm-d 분산 추론KV Cache-aware 라우팅
학습 인프라NeMo 프레임워크분산 학습, EFA 네트워크

참고 자료

공식 문서

논문 / 기술 블로그

관련 문서 (내부)