본문으로 건너뛰기

GPU 인프라

Kubernetes 위에서 어떤 GPU 인스턴스를 · 어떻게 스케줄링하고 · 어떤 드라이버·파티셔닝 스택으로 관리할지 를 다루는 계층입니다. 이 계층이 확립되어야 상위의 추론 프레임워크(vLLM·llm-d 등)가 안정적으로 돌아갑니다.

선택 가이드

NVIDIA 중심이면 노드 전략 → 리소스 관리 → NVIDIA 스택, AWS 실리콘(Trainium/Inferentia) 을 고려한다면 노드 전략 → Neuron 스택 으로 이어 읽으세요.