추론 프레임워크

2026-04-17 작성2026-06-26 수정4분 읽기

가속 컴퓨팅 인프라 위에서 실제로 LLM 을 서빙·분산 추론·파인튜닝 하는 AI 프레임워크 계층입니다. 단일 노드 고성능 서빙(vLLM), Kubernetes 네이티브 분산 추론(llm-d), MoE 모델 처리, NVIDIA NeMo 기반 학습까지 포함합니다.

학습 순서

vLLM → llm-d → HyperPod Inference Operator → MoE → NeMo 순으로 읽으면 "단일 노드 최적화 → 분산 추론 → 관리형 추론 라우팅 → 대규모 MoE → 학습 프레임워크" 의 점진적 난이도를 따라갈 수 있습니다.