본문으로 건너뛰기

17개 문서가 "scope:tech" 태그에 분류되었습니다

모든 태그 보기

EKS GPU 노드 전략

EKS Auto Mode, Karpenter, MNG, Hybrid Node의 GPU 워크로드별 최적 노드 전략

GPU 리소스 관리

EKS에서 Karpenter, KEDA, DRA를 활용한 GPU 리소스 관리 및 비용 최적화

GPU 인프라

EKS GPU 노드 전략, Karpenter·KEDA·DRA 리소스 관리, NVIDIA GPU 스택, AWS Neuron 스택

Inference Optimization on EKS

LLM Inference 성능을 극대화하는 EKS 아키텍처 개요 — vLLM, KV Cache-Aware Routing, Disaggregated Serving, LWS 멀티노드, Hybrid Node 통합의 시작점

NeMo 프레임워크

NVIDIA NeMo Framework의 분산 학습, 파인튜닝, TensorRT-LLM 변환 아키텍처

NVIDIA GPU 스택

GPU Operator, DCGM, MIG, Time-Slicing, Dynamo의 아키텍처와 EKS 통합

Semantic Caching 전략

LLM Gateway 레벨 의미 기반 캐싱 전략과 구현 옵션 비교 (GPTCache, Redis Semantic Cache, Portkey, Helicone, Bifrost+Redis)

vLLM 모델 서빙

vLLM의 PagedAttention, 병렬화 전략, Multi-LoRA, 하드웨어 지원 아키텍처

추론 프레임워크

vLLM·llm-d·MoE·NeMo — GPU 위에서 실제로 모델을 서빙·분산 추론·파인튜닝하는 AI 프레임워크 계층