跳到主要内容

Agentic AI 워크로드의 기술적 도전과제

📅 작성일: 2025-02-05 | 수정일: 2026-02-14 | ⏱️ 읽는 시간: 약 8분

소개

Agentic AI 플랫폼을 구축하고 운영할 때, 플랫폼 엔지니어와 아키텍트는 기존 웹 애플리케이션과는 근본적으로 다른 기술적 도전에 직면합니다. 이 문서에서는 4가지 핵심 도전과제를 분석하고, 이를 해결하기 위한 Kubernetes 기반 오픈소스 생태계를 탐구합니다.

Agentic AI 플랫폼의 4가지 핵심 도전과제

Frontier Model(최신 대규모 언어 모델)을 활용한 Agentic AI 시스템은 기존 웹 애플리케이션과는 근본적으로 다른 인프라 요구사항을 가집니다.

도전과제 요약

🚀 代理 AI 平台核心挑战
现有基础设施的限制和需要解决的问题
🎯GPU 监控和调度
核心问题
缺乏多集群 GPU 可见性,代际工作负载匹配
现有基础设施限制
手动监控,静态分配
🔀动态路由和扩展
核心问题
不可预测的流量,多模型服务复杂性
现有基础设施限制
缓慢的配置,固定容量
💰成本控制
核心问题
GPU 闲置成本,令牌级别跟踪困难
现有基础设施限制
缺乏成本可见性,无法优化
🔧FM 微调
核心问题
分布式训练基础设施复杂性,资源配置延迟
现有基础设施限制
手动集群管理,低利用率
기존 인프라 접근 방식의 한계

전통적인 VM 기반 인프라나 수동 관리 방식으로는 Agentic AI의 동적이고 예측 불가능한 워크로드 패턴에 효과적으로 대응할 수 없습니다. GPU 리소스의 높은 비용과 복잡한 분산 시스템 요구사항은 자동화된 인프라 관리를 필수로 만듭니다.


해결의 핵심: 클라우드 인프라 자동화와 AI 플랫폼의 통합

Agentic AI 플랫폼의 도전과제를 해결하는 핵심은 클라우드 인프라 자동화와 AI 워크로드의 유기적 통합입니다. 이 통합이 중요한 이유는 다음과 같습니다:

왜 Kubernetes인가?

Kubernetes는 Agentic AI 플랫폼의 모든 도전과제를 해결할 수 있는 이상적인 기반 플랫폼입니다:

☸️ Kubernetes 核心功能应用
AI 平台应用方案和解决的挑战
K8s 功能
声明式资源管理
AI 平台应用
将 GPU 资源定义为代码并进行版本控制
解决挑战
#1#4
K8s 功能
自动扩展 (HPA/VPA)
AI 平台应用
根据流量模式自动扩展/缩减 Pod
解决挑战
#2
K8s 功能
基于命名空间的隔离
AI 平台应用
按团队/项目管理资源配额
解决挑战
#3
K8s 功能
Operator 模式
AI 平台应用
复杂分布式学习工作流自动化
解决挑战
#4
K8s 功能
服务网格集成
AI 平台应用
多模型路由和流量管理
解决挑战
#2
K8s 功能
基于指标的编排
AI 平台应用
基于 GPU 利用率的调度决策
解决挑战
#1#3
挑战图例
#1 GPU 监控
#2 动态路由
#3 成本控制
#4 FM 微调
Kubernetes의 AI 워크로드 지원

Kubernetes는 NVIDIA GPU Operator, Kubeflow, KEDA 등 AI/ML 생태계와의 풍부한 통합을 제공합니다. 이를 통해 GPU 리소스 관리, 분산 학습, 모델 서빙을 단일 플랫폼에서 통합 관리할 수 있습니다.


이제 Kubernetes가 AI 워크로드에 적합한 이유를 이해했습니다. 다음으로, 각 도전과제를 해결하는 구체적인 오픈소스 솔루션들을 살펴보겠습니다.

Kubernetes 생태계의 Agentic AI 솔루션 버드뷰

Kubernetes 생태계에는 Agentic AI 플랫폼의 각 도전과제를 해결하기 위한 전문화된 오픈소스 솔루션들이 존재합니다. 이 솔루션들은 Kubernetes 네이티브로 설계되어 선언적 관리, 자동 스케일링, 고가용성의 이점을 그대로 활용할 수 있습니다.

솔루션 매핑 개요

도전과제별 솔루션 상세 매핑

🎯 按挑战分类的解决方案映射
核心解决方案和辅助解决方案
🎯GPU 监控和调度
核心解决方案
Karpenter
辅助解决方案
DCGM ExporterNVIDIA GPU Operator
解决的问题
GPU 节点自动配置,代际工作负载匹配
🎯动态路由和扩展
核心解决方案
KgatewayLiteLLM
辅助解决方案
KEDAvLLMllm-d
解决的问题
多模型路由,基于流量的自动扩展
🎯令牌/成本监控
核心解决方案
LangFuseLangSmith
辅助解决方案
OpenTelemetryPrometheus
解决的问题
令牌级别跟踪,成本可见性,质量评估
🎯FM 微调
核心解决方案
NeMoKubeflow
辅助解决方案
MLflowRay
解决的问题
分布式学习编排,流水线自动化

지금까지 Kubernetes 생태계의 다양한 솔루션들을 살펴보았습니다. 이제 이 솔루션들이 실제로 어떻게 통합되어 작동하는지 오픈소스 아키텍처 관점에서 자세히 알아보겠습니다.

오픈소스 생태계와 Kubernetes 통합 아키텍처

Agentic AI 플랫폼은 다양한 오픈소스 프로젝트들이 Kubernetes를 중심으로 유기적으로 통합되어 구성됩니다. 이 섹션에서는 LLM Observability, 모델 서빙, 벡터 데이터베이스, GPU 인프라 영역의 핵심 오픈소스들이 어떻게 협력하여 완전한 Agentic AI 플랫폼을 형성하는지 설명합니다.

1. 모델 서빙: vLLM + llm-d

vLLM은 LLM 추론을 위한 고성능 서빙 엔진으로, PagedAttention을 통해 메모리 효율성을 극대화합니다. vLLM v0.6+는 CUDA 12.x와 완벽하게 호환되며, H100/H200 GPU를 완전히 지원합니다.

llm-d는 Kubernetes 환경에서 LLM 추론 요청을 지능적으로 분산하는 스케줄러입니다.

🚀 模型服务解决方案比较
vLLM vs llm-d 角色和功能
vLLM
v0.6+
角色
推理引擎
核心功能
PagedAttention,连续批处理,推测解码
llm-d
v0.4+
角色
分布式调度器
核心功能
负载均衡,前缀缓存感知路由,故障恢复
💡vLLM 负责推理优化,llm-d 负责分布式调度,两者互补工作。

Kubernetes 통합:

  • Kubernetes Deployment로 배포
  • Service를 통해 노출
  • 큐 깊이 메트릭 기반 HPA로 스케일링
  • resource requests/limits를 통한 GPU 할당
  • K8s 1.33+: In-place resource resizing으로 Pod 재시작 없이 GPU 메모리 조정 가능

2. 추론 게이트웨이: Kgateway + LiteLLM

Kgateway (v2.0+)는 Kubernetes Gateway API 기반의 AI 추론 게이트웨이로, 멀티 모델 라우팅과 트래픽 관리를 제공합니다. Gateway API v1.2.0+를 지원하며, HTTPRoute 및 GRPCRoute를 완벽하게 지원합니다.

LiteLLM (latest)은 다양한 LLM 프로바이더를 통합 API로 추상화하여 모델 전환을 용이하게 합니다.

🌐 推理网关解决方案比较
Kgateway vs LiteLLM 角色和功能
Kgateway
v2.0+
角色
流量管理
核心功能
基于标头的路由,权重分配,速率限制,金丝雀部署
LiteLLM
latest
角色
API 抽象
核心功能
支持 100+ LLM 提供商,统一 API,回退设置,成本跟踪
💡Kgateway 负责流量控制,LiteLLM 负责多提供商集成,两者可以一起使用。

Kubernetes 통합:

  • Kubernetes Gateway API v1.2.0+ 표준 구현
  • HTTPRoute 리소스를 통한 선언적 라우팅
  • Kubernetes Service와 네이티브 통합
  • 크로스 네임스페이스 라우팅 지원
  • K8s 1.33+: Topology-aware routing으로 크로스 AZ 트래픽 비용 절감 및 지연 시간 개선

3. LLM Observability: LangFuse + LangSmith

LangFuseLangSmith는 LLM 애플리케이션의 전체 라이프사이클을 추적하는 관측성 플랫폼입니다.

📊 可观测性解决方案比较
LangFuse vs LangSmith 部署方式和功能
LangFuse
latest
部署方式
自托管 (K8s)
核心功能
令牌跟踪,成本分析,提示管理,A/B 测试
LangSmith
latest
部署方式
托管 SaaS
核心功能
追踪,评估,数据集管理,协作功能
💡LangFuse 提供本地控制,LangSmith 提供便利性,选择取决于安全要求。

Kubernetes 통합 (LangFuse):

  • StatefulSet 또는 Deployment로 배포
  • PostgreSQL 백엔드 필요 (관리형 RDS 또는 클러스터 내 구성 가능)
  • Prometheus 형식의 메트릭 노출
  • Pod 환경 변수를 통한 SDK 연동
  • K8s 1.33+: Stable sidecar containers로 로깅 및 메트릭 수집 사이드카 안정화

4. Agent 오케스트레이션: KAgent

KAgent는 Kubernetes 네이티브 AI Agent 프레임워크로, Agent 워크플로우를 CRD로 정의하고 관리합니다.

🤖 KAgent 核心功能
Kubernetes 原生 Agent 编排
📝
声明式 Agent 定义
使用 YAML 定义 Agent 配置、工具、内存
📈
自动扩展
根据请求量自动扩展 Agent 实例
🔍
集成可观测性
与 LangFuse/LangSmith 自动集成
🛠️
工具管理
基于 MCP(模型上下文协议)的工具集成

Kubernetes 통합:

  • Custom Resource Definitions (CRD)로 Kubernetes 확장
  • Controller 패턴을 통한 상태 조정
  • Kubernetes RBAC와 네이티브 통합
  • Kubernetes Secrets를 활용한 API 키 관리

솔루션 스택 통합 아키텍처


오픈소스 통합 전체 아키텍처

계층별 오픈소스 역할과 통합

LLM Observability 계층: LangFuse, LangSmith, RAGAS

LLM 애플리케이션의 전체 라이프사이클을 추적하고 품질을 평가하는 핵심 도구들입니다.

🔍 可观测性层堆栈
LLM 性能监控和评估解决方案
LangFuse
角色
LLM 跟踪(自托管)
Kubernetes 集成
Helm Chart, StatefulSet
核心功能
令牌跟踪、成本分析、提示版本管理
LangSmith
角色
LLM 跟踪(托管)
Kubernetes 集成
SDK 集成
核心功能
跟踪、评估、数据集管理、协作
RAGAS
角色
RAG 质量评估
Kubernetes 集成
Job/CronJob
核心功能
Faithfulness、Relevancy、Context Precision 评估

LangFuse Kubernetes 배포 예시:

apiVersion: apps/v1
kind: Deployment
metadata:
name: langfuse-web
namespace: observability
spec:
replicas: 2
selector:
matchLabels:
app: langfuse-web
template:
spec:
containers:
- name: langfuse
image: langfuse/langfuse:latest
env:
- name: DATABASE_URL
valueFrom:
secretKeyRef:
name: langfuse-secrets
key: database-url
- name: NEXTAUTH_SECRET
valueFrom:
secretKeyRef:
name: langfuse-secrets
key: nextauth-secret
resources:
requests:
memory: "512Mi"
cpu: "250m"
---
apiVersion: batch/v1
kind: CronJob
metadata:
name: ragas-evaluation
namespace: observability
spec:
schedule: "0 */6 * * *" # 6시간마다 실행
jobTemplate:
spec:
template:
spec:
containers:
- name: ragas
image: ragas/ragas:latest
command: ["python", "-m", "ragas.evaluate"]
env:
- name: LANGFUSE_HOST
value: "http://langfuse-web:3000"
restartPolicy: OnFailure

Inference Gateway 계층: LiteLLM

LiteLLM은 100개 이상의 LLM 프로바이더를 통합 OpenAI 호환 API로 추상화합니다.

LiteLLM Kubernetes 배포 예시:

apiVersion: apps/v1
kind: Deployment
metadata:
name: litellm-proxy
namespace: ai-gateway
spec:
replicas: 3
selector:
matchLabels:
app: litellm
template:
spec:
containers:
- name: litellm
image: ghcr.io/berriai/litellm:main-latest
ports:
- containerPort: 4000
env:
- name: LITELLM_MASTER_KEY
valueFrom:
secretKeyRef:
name: litellm-secrets
key: master-key
- name: REDIS_HOST
value: "redis-cache"
volumeMounts:
- name: config
mountPath: /app/config.yaml
subPath: config.yaml
volumes:
- name: config
configMap:
name: litellm-config
---
apiVersion: v1
kind: ConfigMap
metadata:
name: litellm-config
namespace: ai-gateway
data:
config.yaml: |
model_list:
- model_name: gpt-4
litellm_params:
model: openai/gpt-4
api_key: os.environ/OPENAI_API_KEY
- model_name: claude-3
litellm_params:
model: anthropic/claude-3-opus
api_key: os.environ/ANTHROPIC_API_KEY
- model_name: llama-70b
litellm_params:
model: openai/llama-70b
api_base: http://vllm-llama:8000/v1

router_settings:
routing_strategy: least-busy
enable_fallbacks: true

general_settings:
master_key: os.environ/LITELLM_MASTER_KEY

분산 추론 계층: llm-d

llm-d는 Kubernetes 환경에서 LLM 추론 요청을 지능적으로 분산하는 스케줄러입니다.

🚀 llm.d 核心功能
智能 LLM 代理和路由
🎯
Prefix Caching 识别
将具有相同提示前缀的请求路由到同一实例
利用 Service Discovery
⚖️
负载均衡
基于 GPU 利用率的智能分发
Prometheus 指标集成
🔄
故障恢复
实例故障时自动重新路由
Health Check + Endpoint Slice
📊
动态扩展
根据请求量扩展后端
KEDA 集成

llm-d Kubernetes 배포 예시:

apiVersion: apps/v1
kind: Deployment
metadata:
name: llm-d-router
namespace: ai-inference
spec:
replicas: 2
selector:
matchLabels:
app: llm-d
template:
spec:
containers:
- name: llm-d
image: ghcr.io/llm-d/llm-d:latest
ports:
- containerPort: 8080
env:
- name: BACKENDS
value: "vllm-0.vllm:8000,vllm-1.vllm:8000,vllm-2.vllm:8000"
- name: ROUTING_STRATEGY
value: "prefix-aware"
- name: PROMETHEUS_ENDPOINT
value: "http://prometheus:9090"
resources:
requests:
memory: "256Mi"
cpu: "500m"
---
apiVersion: v1
kind: Service
metadata:
name: llm-d
namespace: ai-inference
spec:
selector:
app: llm-d
ports:
- port: 8080
targetPort: 8080

5. 벡터 데이터베이스 계층: Milvus

RAG 파이프라인의 핵심 컴포넌트인 Milvus는 Kubernetes에서 분산 아키텍처로 운영됩니다.

자세한 내용은 Milvus 벡터 데이터베이스 문서를 참조하세요.

Milvus의 주요 특징:

  • 분산 아키텍처: Query/Data/Index Nodes를 독립적으로 스케일링
  • Kubernetes Operator: CRD 기반 선언적 관리
  • GPU 가속: Index Node에서 GPU를 활용한 빠른 인덱스 빌드
  • S3 통합: Amazon S3를 영구 스토리지로 사용 가능

6. 분산 학습: NeMo + Kubeflow

NVIDIA NeMoKubeflow는 대규모 모델의 분산 학습 파이프라인 자동화를 제공합니다.

🎓 分布式训练堆栈
大规模模型训练和流水线管理
🧠
NeMo
训练框架
LLM/多模态训练、模型并行化、优化技术
⚙️
Kubeflow
ML 编排
流水线管理、实验跟踪、超参数调优

Kubernetes 통합:

  • Kubeflow Training Operators (PyTorchJob, MPIJob 등)
  • 분산 워크로드를 위한 Gang 스케줄링
  • 토폴로지 인식 스케줄링 (노드 어피니티, 안티 어피니티)
  • 공유 스토리지를 위한 CSI 드라이버 연동 (FSx for Lustre)

GPU 인프라 및 리소스 관리

GPU 리소스 관리는 Agentic AI 플랫폼의 핵심입니다. 자세한 내용은 다음 문서를 참조하세요:

GPU 관리의 핵심 개념
  • Device Plugin: Kubernetes의 기본 GPU 할당 메커니즘
  • DRA (Dynamic Resource Allocation): Kubernetes 1.26+의 유연한 리소스 관리
  • NCCL: 분산 GPU 학습을 위한 고성능 통신 라이브러리

GPU 인프라 스택 개요

💎 GPU 基础设施堆栈
GPU 资源管理和优化组件
DRA (Dynamic Resource Allocation)
v1beta1 (K8s 1.32+)
GPU 资源管理
动态 GPU 资源分配,网络接口分配 (K8s 1.33+)
DCGM (Data Center GPU Manager)
3.3+
GPU 资源管理
GPU 指标收集,H100/H200 支持
NCCL (NVIDIA Collective Communication Library)
latest
NeMo 框架
多 GPU 通信优化
Karpenter
v1.0+ (GA)
GPU 资源管理
GPU 节点自动配置
GPU Operator
v24.x
GPU 资源管理
CUDA 12.x 支持,驱动程序自动管理

결론: 왜 Agentic AI에 Kubernetes인가?

Kubernetes는 현대 Agentic AI 플랫폼을 가능하게 하는 기본 인프라 계층을 제공합니다:

핵심 장점

  1. 통합 플랫폼: 추론, 학습, 오케스트레이션을 위한 단일 플랫폼
  2. 선언적 관리: 버전 관리가 가능한 Infrastructure as Code
  3. 풍부한 생태계: AI 워크로드를 위한 광범위한 오픈소스 솔루션
  4. 클라우드 이식성: 어디서나 실행 가능 (온프레미스, AWS, GCP, Azure)
  5. 성숙한 도구: kubectl, Helm, operators, 모니터링 스택
  6. 활발한 커뮤니티: Kubernetes AI/ML SIG가 혁신을 주도

앞으로의 방향

Agentic AI 플랫폼을 구축하는 조직을 위한 권장 사항:

  1. Kubernetes로 시작: 팀 내 Kubernetes 전문성 확보
  2. 오픈소스 활용: 검증된 솔루션 도입 (vLLM, LangFuse 등)
  3. 클라우드 통합: 오픈소스와 관리형 서비스 결합
  4. 인프라 자동화: 자동 스케일링 및 프로비저닝 구현
  5. 전면적 관측성: 첫날부터 포괄적인 관측성 확보
다음 단계: EKS 기반 솔루션

이러한 도전과제를 해결하기 위한 Amazon EKS와 AWS 서비스 활용 방법은 EKS 기반 Agentic AI 솔루션을 참조하세요.


다음 단계

이 문서에서는 Agentic AI 워크로드의 4가지 핵심 도전과제와 Kubernetes 기반 오픈소스 생태계를 살펴보았습니다.

다음 단계: EKS 기반 해결방안

이 문서에서 소개한 도전과제들을 Amazon EKS와 AWS 서비스를 활용하여 해결하는 구체적인 방법은 EKS 기반 Agentic AI 해결방안을 참조하세요.

다음 문서에서 다룰 내용:

  • EKS Auto Mode로 완전 자동화된 클러스터 구축
  • Karpenter를 통한 GPU 노드 자동 프로비저닝
  • AWS 서비스와의 통합 (Bedrock, S3, CloudWatch)
  • 프로덕션 환경을 위한 보안 및 운영 전략
  • 실전 배포 가이드 및 트러블슈팅

참고 자료

Kubernetes 및 인프라

모델 서빙 및 추론

LLM Observability

벡터 데이터베이스

GPU 인프라

Agent 프레임워크 및 학습