본문으로 건너뛰기

4개 문서가 "evaluation" 태그에 분류되었습니다

모든 태그 보기

AIDLC Evaluation Framework

Agent/LLM 개발 프로세스의 Evaluation-driven Loop — SWE-bench Verified, METR, Ragas, DeepEval, LangSmith, Braintrust, AWS Labs aidlc-evaluator 비교

Trace → Dataset Materializer

Langfuse OTel 트레이스를 S3 Parquet/Iceberg로 적재하고 Ragas + LLM Judge Fleet로 Reward를 레이블링해 GRPO/DPO 학습 데이터셋을 자동 구성합니다.