본문으로 건너뛰기

3개 문서가 "grpo" 태그에 분류되었습니다

모든 태그 보기

Continuous Training Pipeline

Langfuse trace를 자동 학습 데이터로 승격해 GRPO/DPO preference tuning과 Canary 배포까지 연결하는 EKS 기반 5단계 파이프라인 개요.

GRPO/DPO 학습 Job

레이블링된 preference 데이터셋으로 NeMo-RL(GRPO)·TRL(DPO) 학습 Job을 Karpenter Spot 노드풀 + Volcano Gang Scheduling으로 실행하는 실전 구성.

Self-Improving Agent Loop (Autosearch)

Karpathy의 autosearch 개념을 기반으로 self-hosted SLM이 프로덕션 trace로부터 스스로 학습·강화하는 5-stage 루프 설계와 안전장치