Agentic AI Platform
Agentic AI 플랫폼의 아키텍처, 구축, 운영에 대한 심화 기술 문서
Agentic AI 플랫폼의 아키텍처, 구축, 운영에 대한 심화 기술 문서
Agentic AI 워크로드 운영 시 직면하는 5가지 핵심 도전과제
Spot reclaim·스케줄링 이벤트 시 GPU 워크로드 checkpoint/restore로 무중단 이관하는 기술 현황과 EKS 적용 가능 시나리오 분석 (Experimental)
EKS Auto Mode, Karpenter, MNG, Hybrid Node의 GPU 워크로드별 최적 노드 전략
Amazon EKS Hybrid Nodes 도입을 위한 완전한 가이드: 아키텍처, 구성, 네트워킹, DNS, GPU 서버, 비용 분석 및 동적 리소스 할당(DRA)
Amazon EKS와 오픈소스 생태계를 활용한 Agentic AI 플랫폼 구축 가이드
EKS에서 Karpenter, KEDA, DRA를 활용한 GPU 리소스 관리 및 비용 최적화
2-Tier GPU 오토스케일링·DCGM/vLLM 모니터링·Bifrost→Bedrock Cascade Fallback·Hybrid Node 온프레 통합·대형 MoE 배포 실전 교훈
EKS GPU 노드 전략, Karpenter·KEDA·DRA 리소스 관리, NVIDIA GPU 스택, AWS Neuron 스택
LLM Inference 성능을 극대화하는 EKS 아키텍처 개요 — vLLM, KV Cache-Aware Routing, Disaggregated Serving, LWS 멀티노드, Hybrid Node 통합의 시작점
vLLM 기반 Llama 4 모델 서빙에서 GPU 인스턴스(p5, p4d, g6e)와 AWS 커스텀 실리콘(Trainium2, Inferentia2)의 성능 및 비용 효율성 비교 벤치마크
llm-d 아키텍처 개념, KV Cache-aware 라우팅, Disaggregated Serving, EKS Auto Mode 통합 전략
Mixture of Experts 모델의 아키텍처 개념, 분산 배포 전략, 성능 최적화 원리
NVIDIA Dynamo 기반 Aggregated/Disaggregated LLM 서빙 성능 비교 벤치마크 — EKS 환경 AIPerf 4가지 모드 실행
GPU Operator, DCGM, MIG, Time-Slicing, Dynamo의 아키텍처와 EKS 통합
Agentic AI Platform 실전 배포 및 구성 레퍼런스 아키텍처
vLLM의 PagedAttention, 병렬화 전략, Multi-LoRA, 하드웨어 지원 아키텍처
GPU 인프라 계층과 추론·학습 프레임워크 계층으로 나뉜 모델 서빙 가이드
GLM-5.1 사례 기반 — 대형 오픈소스 모델의 EKS 배포 실전 가이드