AIDLC Evaluation Framework
Agent/LLM 개발 프로세스의 Evaluation-driven Loop — SWE-bench Verified, METR, Ragas, DeepEval, LangSmith, Braintrust, AWS Labs aidlc-evaluator 비교
Agent/LLM 개발 프로세스의 Evaluation-driven Loop — SWE-bench Verified, METR, Ragas, DeepEval, LangSmith, Braintrust, AWS Labs aidlc-evaluator 비교
Ragas를 활용한 RAG 파이프라인 품질 평가 및 지속적 개선 방법
Langfuse OTel 트레이스를 S3 Parquet/Iceberg로 적재하고 Ragas + LLM Judge Fleet로 Reward를 레이블링해 GRPO/DPO 학습 데이터셋을 자동 구성합니다.
품질 평가·운영 플레이북·AI Gateway 가드레일·컴플라이언스·도메인 커스터마이징을 아우르는 거버넌스 문서 모음