Agentic AI 워크로드의 기술적 도전과제

📅 작성일: 2025-02-05 | 수정일: 2026-02-14 | ⏱️ 읽는 시간: 약 8분

소개

Agentic AI 플랫폼을 구축하고 운영할 때, 플랫폼 엔지니어와 아키텍트는 기존 웹 애플리케이션과는 근본적으로 다른 기술적 도전에 직면합니다. 이 문서에서는 4가지 핵심 도전과제를 분석하고, 이를 해결하기 위한 Kubernetes 기반 오픈소스 생태계를 탐구합니다.

Agentic AI 플랫폼의 4가지 핵심 도전과제

Frontier Model(최신 대규모 언어 모델)을 활용한 Agentic AI 시스템은 기존 웹 애플리케이션과는 근본적으로 다른 인프라 요구사항을 가집니다.

도전과제 요약

🚀 에이전틱 AI 플랫폼 핵심 도전과제

기존 인프라의 한계와 해결해야 할 문제

🎯GPU 모니터링 및 스케줄링

핵심 문제

멀티 클러스터 GPU 가시성 부재, 세대별 워크로드 매칭

기존 인프라의 한계

수동 모니터링, 정적 할당

🔀동적 라우팅 및 스케일링

핵심 문제

예측 불가능한 트래픽, 멀티 모델 서빙 복잡성

기존 인프라의 한계

느린 프로비저닝, 고정 용량

💰비용 컨트롤

핵심 문제

GPU 유휴 비용, 토큰 레벨 추적 어려움

기존 인프라의 한계

비용 가시성 부재, 최적화 불가

🔧FM 파인튜닝

핵심 문제

분산 학습 인프라 복잡성, 리소스 프로비저닝 지연

기존 인프라의 한계

수동 클러스터 관리, 낮은 활용률

기존 인프라 접근 방식의 한계

전통적인 VM 기반 인프라나 수동 관리 방식으로는 Agentic AI의 동적이고 예측 불가능한 워크로드 패턴에 효과적으로 대응할 수 없습니다. GPU 리소스의 높은 비용과 복잡한 분산 시스템 요구사항은 자동화된 인프라 관리를 필수로 만듭니다.

해결의 핵심: 클라우드 인프라 자동화와 AI 플랫폼의 통합

Agentic AI 플랫폼의 도전과제를 해결하는 핵심은 클라우드 인프라 자동화와 AI 워크로드의 유기적 통합입니다. 이 통합이 중요한 이유는 다음과 같습니다:

왜 Kubernetes인가?

Kubernetes는 Agentic AI 플랫폼의 모든 도전과제를 해결할 수 있는 이상적인 기반 플랫폼입니다:

☸️ Kubernetes 핵심 기능 활용

AI 플랫폼 적용 방안과 해결되는 도전과제

K8s 기능

선언적 리소스 관리

AI 플랫폼 적용

GPU 리소스를 코드로 정의하고 버전 관리

해결 도전과제

#1#4

K8s 기능

자동 스케일링 (HPA/VPA)

AI 플랫폼 적용

트래픽 패턴에 따른 Pod 자동 확장/축소

해결 도전과제

K8s 기능

네임스페이스 기반 격리

AI 플랫폼 적용

팀/프로젝트별 리소스 할당량 관리

해결 도전과제

K8s 기능

Operator 패턴

AI 플랫폼 적용

복잡한 분산 학습 워크플로우 자동화

해결 도전과제

K8s 기능

서비스 메시 통합

AI 플랫폼 적용

멀티 모델 라우팅 및 트래픽 관리

해결 도전과제

K8s 기능

메트릭 기반 오케스트레이션

AI 플랫폼 적용

GPU 사용률 기반 스케줄링 결정

해결 도전과제

#1#3

도전과제 범례

#1 GPU 모니터링

#2 동적 라우팅

#3 비용 컨트롤

#4 FM 파인튜닝

Kubernetes의 AI 워크로드 지원

Kubernetes는 NVIDIA GPU Operator, Kubeflow, KEDA 등 AI/ML 생태계와의 풍부한 통합을 제공합니다. 이를 통해 GPU 리소스 관리, 분산 학습, 모델 서빙을 단일 플랫폼에서 통합 관리할 수 있습니다.

이제 Kubernetes가 AI 워크로드에 적합한 이유를 이해했습니다. 다음으로, 각 도전과제를 해결하는 구체적인 오픈소스 솔루션들을 살펴보겠습니다.

Kubernetes 생태계의 Agentic AI 솔루션 버드뷰

Kubernetes 생태계에는 Agentic AI 플랫폼의 각 도전과제를 해결하기 위한 전문화된 오픈소스 솔루션들이 존재합니다. 이 솔루션들은 Kubernetes 네이티브로 설계되어 선언적 관리, 자동 스케일링, 고가용성의 이점을 그대로 활용할 수 있습니다.

솔루션 매핑 개요

도전과제별 솔루션 상세 매핑

🎯 도전과제별 솔루션 매핑

핵심 솔루션과 보조 솔루션

🎯GPU 모니터링 및 스케줄링

핵심 솔루션

Karpenter

보조 솔루션

DCGM ExporterNVIDIA GPU Operator

해결하는 문제

GPU 노드 자동 프로비저닝, 세대별 워크로드 매칭

🎯동적 라우팅 및 스케일링

핵심 솔루션

KgatewayLiteLLM

보조 솔루션

KEDAvLLMllm-d

해결하는 문제

멀티 모델 라우팅, 트래픽 기반 자동 스케일링

🎯토큰/비용 모니터링

핵심 솔루션

LangFuseLangSmith

보조 솔루션

OpenTelemetryPrometheus

해결하는 문제

토큰 레벨 추적, 비용 가시성, 품질 평가

🎯FM 파인튜닝

핵심 솔루션

NeMoKubeflow

보조 솔루션

MLflowRay

해결하는 문제

분산 학습 오케스트레이션, 파이프라인 자동화

지금까지 Kubernetes 생태계의 다양한 솔루션들을 살펴보았습니다. 이제 이 솔루션들이 실제로 어떻게 통합되어 작동하는지 오픈소스 아키텍처 관점에서 자세히 알아보겠습니다.

오픈소스 생태계와 Kubernetes 통합 아키텍처

Agentic AI 플랫폼은 다양한 오픈소스 프로젝트들이 Kubernetes를 중심으로 유기적으로 통합되어 구성됩니다. 이 섹션에서는 LLM Observability, 모델 서빙, 벡터 데이터베이스, GPU 인프라 영역의 핵심 오픈소스들이 어떻게 협력하여 완전한 Agentic AI 플랫폼을 형성하는지 설명합니다.

1. 모델 서빙: vLLM + llm-d

vLLM은 LLM 추론을 위한 고성능 서빙 엔진으로, PagedAttention을 통해 메모리 효율성을 극대화합니다. vLLM v0.6+는 CUDA 12.x와 완벽하게 호환되며, H100/H200 GPU를 완전히 지원합니다.

llm-d는 Kubernetes 환경에서 LLM 추론 요청을 지능적으로 분산하는 스케줄러입니다.

🚀 모델 서빙 솔루션 비교

vLLM vs llm-d 역할과 기능

vLLM

v0.6+

역할

추론 엔진

핵심 기능

PagedAttention, Continuous Batching, Speculative Decoding

llm-d

v0.4+

역할

분산 스케줄러

핵심 기능

로드 밸런싱, Prefix Caching 인식 라우팅, 장애 복구

💡vLLM은 추론 최적화를, llm-d는 분산 스케줄링을 담당하여 상호 보완적으로 작동합니다.

Kubernetes 통합:

Kubernetes Deployment로 배포
Service를 통해 노출
큐 깊이 메트릭 기반 HPA로 스케일링
resource requests/limits를 통한 GPU 할당
K8s 1.33+: In-place resource resizing으로 Pod 재시작 없이 GPU 메모리 조정 가능

2. 추론 게이트웨이: Kgateway + LiteLLM

Kgateway (v2.0+)는 Kubernetes Gateway API 기반의 AI 추론 게이트웨이로, 멀티 모델 라우팅과 트래픽 관리를 제공합니다. Gateway API v1.2.0+를 지원하며, HTTPRoute 및 GRPCRoute를 완벽하게 지원합니다.

LiteLLM (latest)은 다양한 LLM 프로바이더를 통합 API로 추상화하여 모델 전환을 용이하게 합니다.

🌐 추론 게이트웨이 솔루션 비교

Kgateway vs LiteLLM 역할과 기능

Kgateway

v2.0+

역할

트래픽 관리

핵심 기능

헤더 기반 라우팅, 가중치 분배, Rate Limiting, Canary 배포

LiteLLM

latest

역할

API 추상화

핵심 기능

100+ LLM 프로바이더 지원, 통합 API, 폴백 설정, 비용 추적

💡Kgateway는 트래픽 제어를, LiteLLM은 멀티 프로바이더 통합을 담당하여 함께 사용 가능합니다.

Kubernetes 통합:

Kubernetes Gateway API v1.2.0+ 표준 구현
HTTPRoute 리소스를 통한 선언적 라우팅
Kubernetes Service와 네이티브 통합
크로스 네임스페이스 라우팅 지원
K8s 1.33+: Topology-aware routing으로 크로스 AZ 트래픽 비용 절감 및 지연 시간 개선

3. LLM Observability: LangFuse + LangSmith

LangFuse와 LangSmith는 LLM 애플리케이션의 전체 라이프사이클을 추적하는 관측성 플랫폼입니다.

📊 관찰성 솔루션 비교

LangFuse vs LangSmith 배포 방식과 기능

LangFuse

latest

배포 방식

Self-hosted (K8s)

핵심 기능

토큰 추적, 비용 분석, 프롬프트 관리, A/B 테스트

LangSmith

latest

배포 방식

Managed SaaS

핵심 기능

트레이싱, 평가, 데이터셋 관리, 협업 기능

💡LangFuse는 온프레미스 제어를, LangSmith는 편의성을 제공하며 선택은 보안 요구사항에 따라 달라집니다.

Kubernetes 통합 (LangFuse):

StatefulSet 또는 Deployment로 배포
PostgreSQL 백엔드 필요 (관리형 RDS 또는 클러스터 내 구성 가능)
Prometheus 형식의 메트릭 노출
Pod 환경 변수를 통한 SDK 연동
K8s 1.33+: Stable sidecar containers로 로깅 및 메트릭 수집 사이드카 안정화

4. Agent 오케스트레이션: KAgent

KAgent는 Kubernetes 네이티브 AI Agent 프레임워크로, Agent 워크플로우를 CRD로 정의하고 관리합니다.

🤖 KAgent 핵심 기능

Kubernetes 네이티브 Agent 오케스트레이션

📝

선언적 Agent 정의

YAML로 Agent 구성, 도구, 메모리 정의

📈

자동 스케일링

요청량에 따른 Agent 인스턴스 자동 확장

🔍

통합 관측성

LangFuse/LangSmith와 자동 연동

🛠️

도구 관리

MCP(Model Context Protocol) 기반 도구 통합

Kubernetes 통합:

Custom Resource Definitions (CRD)로 Kubernetes 확장
Controller 패턴을 통한 상태 조정
Kubernetes RBAC와 네이티브 통합
Kubernetes Secrets를 활용한 API 키 관리

솔루션 스택 통합 아키텍처

오픈소스 통합 전체 아키텍처

계층별 오픈소스 역할과 통합

LLM Observability 계층: LangFuse, LangSmith, RAGAS

LLM 애플리케이션의 전체 라이프사이클을 추적하고 품질을 평가하는 핵심 도구들입니다.

🔍 관측성 레이어 스택

LLM 성능 모니터링 및 평가 솔루션

LangFuse

역할

LLM 트레이싱 (Self-hosted)

Kubernetes 통합

Helm Chart, StatefulSet

핵심 기능

토큰 추적, 비용 분석, 프롬프트 버전 관리

LangSmith

역할

LLM 트레이싱 (Managed)

Kubernetes 통합

SDK 연동

핵심 기능

트레이싱, 평가, 데이터셋 관리, 협업

RAGAS

역할

RAG 품질 평가

Kubernetes 통합

Job/CronJob

핵심 기능

Faithfulness, Relevancy, Context Precision 평가

LangFuse Kubernetes 배포 예시:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: langfuse-web
  namespace: observability
spec:
  replicas: 2
  selector:
    matchLabels:
      app: langfuse-web
  template:
    spec:
      containers:
        - name: langfuse
          image: langfuse/langfuse:latest
          env:
            - name: DATABASE_URL
              valueFrom:
                secretKeyRef:
                  name: langfuse-secrets
                  key: database-url
            - name: NEXTAUTH_SECRET
              valueFrom:
                secretKeyRef:
                  name: langfuse-secrets
                  key: nextauth-secret
          resources:
            requests:
              memory: "512Mi"
              cpu: "250m"
---
apiVersion: batch/v1
kind: CronJob
metadata:
  name: ragas-evaluation
  namespace: observability
spec:
  schedule: "0 */6 * * *"  # 6시간마다 실행
  jobTemplate:
    spec:
      template:
        spec:
          containers:
            - name: ragas
              image: ragas/ragas:latest
              command: ["python", "-m", "ragas.evaluate"]
              env:
                - name: LANGFUSE_HOST
                  value: "http://langfuse-web:3000"
          restartPolicy: OnFailure

Inference Gateway 계층: LiteLLM

LiteLLM은 100개 이상의 LLM 프로바이더를 통합 OpenAI 호환 API로 추상화합니다.

LiteLLM Kubernetes 배포 예시:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: litellm-proxy
  namespace: ai-gateway
spec:
  replicas: 3
  selector:
    matchLabels:
      app: litellm
  template:
    spec:
      containers:
        - name: litellm
          image: ghcr.io/berriai/litellm:main-latest
          ports:
            - containerPort: 4000
          env:
            - name: LITELLM_MASTER_KEY
              valueFrom:
                secretKeyRef:
                  name: litellm-secrets
                  key: master-key
            - name: REDIS_HOST
              value: "redis-cache"
          volumeMounts:
            - name: config
              mountPath: /app/config.yaml
              subPath: config.yaml
      volumes:
        - name: config
          configMap:
            name: litellm-config
---
apiVersion: v1
kind: ConfigMap
metadata:
  name: litellm-config
  namespace: ai-gateway
data:
  config.yaml: |
    model_list:
      - model_name: gpt-4
        litellm_params:
          model: openai/gpt-4
          api_key: os.environ/OPENAI_API_KEY
      - model_name: claude-3
        litellm_params:
          model: anthropic/claude-3-opus
          api_key: os.environ/ANTHROPIC_API_KEY
      - model_name: llama-70b
        litellm_params:
          model: openai/llama-70b
          api_base: http://vllm-llama:8000/v1

    router_settings:
      routing_strategy: least-busy
      enable_fallbacks: true

    general_settings:
      master_key: os.environ/LITELLM_MASTER_KEY

분산 추론 계층: llm-d

llm-d는 Kubernetes 환경에서 LLM 추론 요청을 지능적으로 분산하는 스케줄러입니다.

🚀 llm.d 핵심 기능

지능형 LLM 프록시 및 라우팅

🎯

Prefix Caching 인식

동일 프롬프트 프리픽스를 가진 요청을 같은 인스턴스로 라우팅

Service Discovery 활용

⚖️

로드 밸런싱

GPU 사용률 기반 지능형 분배

Prometheus 메트릭 연동

🔄

장애 복구

인스턴스 장애 시 자동 재라우팅

Health Check + Endpoint Slice

📊

동적 스케일링

요청량에 따른 백엔드 확장

KEDA 연동

llm-d Kubernetes 배포 예시:

apiVersion: apps/v1
kind: Deployment
metadata:
  name: llm-d-router
  namespace: ai-inference
spec:
  replicas: 2
  selector:
    matchLabels:
      app: llm-d
  template:
    spec:
      containers:
        - name: llm-d
          image: ghcr.io/llm-d/llm-d:latest
          ports:
            - containerPort: 8080
          env:
            - name: BACKENDS
              value: "vllm-0.vllm:8000,vllm-1.vllm:8000,vllm-2.vllm:8000"
            - name: ROUTING_STRATEGY
              value: "prefix-aware"
            - name: PROMETHEUS_ENDPOINT
              value: "http://prometheus:9090"
          resources:
            requests:
              memory: "256Mi"
              cpu: "500m"
---
apiVersion: v1
kind: Service
metadata:
  name: llm-d
  namespace: ai-inference
spec:
  selector:
    app: llm-d
  ports:
    - port: 8080
      targetPort: 8080

5. 벡터 데이터베이스 계층: Milvus

RAG 파이프라인의 핵심 컴포넌트인 Milvus는 Kubernetes에서 분산 아키텍처로 운영됩니다.

자세한 내용은 Milvus 벡터 데이터베이스 문서를 참조하세요.

Milvus의 주요 특징:

분산 아키텍처: Query/Data/Index Nodes를 독립적으로 스케일링
Kubernetes Operator: CRD 기반 선언적 관리
GPU 가속: Index Node에서 GPU를 활용한 빠른 인덱스 빌드
S3 통합: Amazon S3를 영구 스토리지로 사용 가능

6. 분산 학습: NeMo + Kubeflow

NVIDIA NeMo와 Kubeflow는 대규모 모델의 분산 학습 파이프라인 자동화를 제공합니다.

🎓 분산 학습 스택

대규모 모델 학습 및 파이프라인 관리

🧠

NeMo

학습 프레임워크

LLM/멀티모달 학습, 모델 병렬화, 최적화 기법

⚙️

Kubeflow

ML 오케스트레이션

파이프라인 관리, 실험 추적, 하이퍼파라미터 튜닝

Kubernetes 통합:

Kubeflow Training Operators (PyTorchJob, MPIJob 등)
분산 워크로드를 위한 Gang 스케줄링
토폴로지 인식 스케줄링 (노드 어피니티, 안티 어피니티)
공유 스토리지를 위한 CSI 드라이버 연동 (FSx for Lustre)

GPU 인프라 및 리소스 관리

GPU 리소스 관리는 Agentic AI 플랫폼의 핵심입니다. 자세한 내용은 다음 문서를 참조하세요:

GPU 리소스 관리: Device Plugin, DRA(Dynamic Resource Allocation), GPU 토폴로지 인식 스케줄링
NeMo 프레임워크: 분산 학습과 NCCL 최적화

GPU 관리의 핵심 개념

Device Plugin: Kubernetes의 기본 GPU 할당 메커니즘
DRA (Dynamic Resource Allocation): Kubernetes 1.26+의 유연한 리소스 관리
NCCL: 분산 GPU 학습을 위한 고성능 통신 라이브러리

GPU 인프라 스택 개요

💎 GPU 인프라 스택

GPU 리소스 관리 및 최적화 컴포넌트

DRA (Dynamic Resource Allocation)

v1beta1 (K8s 1.32+)

GPU 리소스 관리

GPU 리소스 동적 할당, 네트워크 인터페이스 할당 (K8s 1.33+)

DCGM (Data Center GPU Manager)

3.3+

GPU 리소스 관리

GPU 메트릭 수집, H100/H200 지원

NCCL (NVIDIA Collective Communication Library)

latest

NeMo 프레임워크

멀티 GPU 통신 최적화

Karpenter

v1.0+ (GA)

GPU 리소스 관리

GPU 노드 자동 프로비저닝

GPU Operator

v24.x

GPU 리소스 관리

CUDA 12.x 지원, 드라이버 자동 관리

결론: 왜 Agentic AI에 Kubernetes인가?

Kubernetes는 현대 Agentic AI 플랫폼을 가능하게 하는 기본 인프라 계층을 제공합니다:

핵심 장점

통합 플랫폼: 추론, 학습, 오케스트레이션을 위한 단일 플랫폼
선언적 관리: 버전 관리가 가능한 Infrastructure as Code
풍부한 생태계: AI 워크로드를 위한 광범위한 오픈소스 솔루션
클라우드 이식성: 어디서나 실행 가능 (온프레미스, AWS, GCP, Azure)
성숙한 도구: kubectl, Helm, operators, 모니터링 스택
활발한 커뮤니티: Kubernetes AI/ML SIG가 혁신을 주도

앞으로의 방향

Agentic AI 플랫폼을 구축하는 조직을 위한 권장 사항:

Kubernetes로 시작: 팀 내 Kubernetes 전문성 확보
오픈소스 활용: 검증된 솔루션 도입 (vLLM, LangFuse 등)
클라우드 통합: 오픈소스와 관리형 서비스 결합
인프라 자동화: 자동 스케일링 및 프로비저닝 구현
전면적 관측성: 첫날부터 포괄적인 관측성 확보

다음 단계: EKS 기반 솔루션

이러한 도전과제를 해결하기 위한 Amazon EKS와 AWS 서비스 활용 방법은 EKS 기반 Agentic AI 솔루션을 참조하세요.

다음 단계

이 문서에서는 Agentic AI 워크로드의 4가지 핵심 도전과제와 Kubernetes 기반 오픈소스 생태계를 살펴보았습니다.

다음 단계: EKS 기반 해결방안

이 문서에서 소개한 도전과제들을 Amazon EKS와 AWS 서비스를 활용하여 해결하는 구체적인 방법은 EKS 기반 Agentic AI 해결방안을 참조하세요.

다음 문서에서 다룰 내용:

EKS Auto Mode로 완전 자동화된 클러스터 구축
Karpenter를 통한 GPU 노드 자동 프로비저닝
AWS 서비스와의 통합 (Bedrock, S3, CloudWatch)
프로덕션 환경을 위한 보안 및 운영 전략
실전 배포 가이드 및 트러블슈팅

Agentic AI 워크로드의 기술적 도전과제

소개

Agentic AI 플랫폼의 4가지 핵심 도전과제

도전과제 요약

해결의 핵심: 클라우드 인프라 자동화와 AI 플랫폼의 통합

왜 Kubernetes인가?

Kubernetes 생태계의 Agentic AI 솔루션 버드뷰

솔루션 매핑 개요

도전과제별 솔루션 상세 매핑

오픈소스 생태계와 Kubernetes 통합 아키텍처

1. 모델 서빙: vLLM + llm-d

2. 추론 게이트웨이: Kgateway + LiteLLM

3. LLM Observability: LangFuse + LangSmith

4. Agent 오케스트레이션: KAgent

솔루션 스택 통합 아키텍처

오픈소스 통합 전체 아키텍처

계층별 오픈소스 역할과 통합

LLM Observability 계층: LangFuse, LangSmith, RAGAS

Inference Gateway 계층: LiteLLM

분산 추론 계층: llm-d

5. 벡터 데이터베이스 계층: Milvus

6. 분산 학습: NeMo + Kubeflow

GPU 인프라 및 리소스 관리

GPU 인프라 스택 개요

결론: 왜 Agentic AI에 Kubernetes인가?

핵심 장점

앞으로의 방향

다음 단계

참고 자료

Kubernetes 및 인프라

모델 서빙 및 추론

LLM Observability

벡터 데이터베이스

GPU 인프라

Agent 프레임워크 및 학습

소개​

Agentic AI 플랫폼의 4가지 핵심 도전과제​

도전과제 요약​

해결의 핵심: 클라우드 인프라 자동화와 AI 플랫폼의 통합​

왜 Kubernetes인가?​

Kubernetes 생태계의 Agentic AI 솔루션 버드뷰​

솔루션 매핑 개요​

도전과제별 솔루션 상세 매핑​

오픈소스 생태계와 Kubernetes 통합 아키텍처​

1. 모델 서빙: vLLM + llm-d​

2. 추론 게이트웨이: Kgateway + LiteLLM​

3. LLM Observability: LangFuse + LangSmith​

4. Agent 오케스트레이션: KAgent​

솔루션 스택 통합 아키텍처​

오픈소스 통합 전체 아키텍처​

계층별 오픈소스 역할과 통합​

LLM Observability 계층: LangFuse, LangSmith, RAGAS​

Inference Gateway 계층: LiteLLM​

분산 추론 계층: llm-d​

5. 벡터 데이터베이스 계층: Milvus​

6. 분산 학습: NeMo + Kubeflow​

GPU 인프라 및 리소스 관리​

GPU 인프라 스택 개요​

결론: 왜 Agentic AI에 Kubernetes인가?​

핵심 장점​

앞으로의 방향​

다음 단계​

참고 자료​

Kubernetes 및 인프라​

모델 서빙 및 추론​

LLM Observability​

벡터 데이터베이스​

GPU 인프라​

Agent 프레임워크 및 학습​

소개

Agentic AI 플랫폼의 4가지 핵심 도전과제

도전과제 요약

해결의 핵심: 클라우드 인프라 자동화와 AI 플랫폼의 통합

왜 Kubernetes인가?

Kubernetes 생태계의 Agentic AI 솔루션 버드뷰

솔루션 매핑 개요

도전과제별 솔루션 상세 매핑

오픈소스 생태계와 Kubernetes 통합 아키텍처

1. 모델 서빙: vLLM + llm-d

2. 추론 게이트웨이: Kgateway + LiteLLM

3. LLM Observability: LangFuse + LangSmith

4. Agent 오케스트레이션: KAgent

솔루션 스택 통합 아키텍처

오픈소스 통합 전체 아키텍처

계층별 오픈소스 역할과 통합

LLM Observability 계층: LangFuse, LangSmith, RAGAS

Inference Gateway 계층: LiteLLM

분산 추론 계층: llm-d

5. 벡터 데이터베이스 계층: Milvus

6. 분산 학습: NeMo + Kubeflow

GPU 인프라 및 리소스 관리

GPU 인프라 스택 개요

결론: 왜 Agentic AI에 Kubernetes인가?

핵심 장점

앞으로의 방향

다음 단계

참고 자료

Kubernetes 및 인프라

모델 서빙 및 추론

LLM Observability

벡터 데이터베이스

GPU 인프라

Agent 프레임워크 및 학습