GRPO/DPO 학습 Job
레이블링된 preference 데이터셋으로 NeMo-RL(GRPO)·TRL(DPO) 학습 Job을 Karpenter Spot 노드풀 + Volcano Gang Scheduling 으로 실행하는 실전 구성.
레이블링된 preference 데이터셋으로 NeMo-RL(GRPO)·TRL(DPO) 학습 Job을 Karpenter Spot 노드풀 + Volcano Gang Scheduling 으로 실행하는 실전 구성.
NVIDIA NeMo Framework의 분산 학습, 파인튜닝, TensorRT-LLM 변환 아키텍처
SageMaker에서 학습하고 EKS에서 서빙하는 하이브리드 ML 아키텍처