跳到主要内容

3 篇文档已标记「ragas」

查看所有标签

AIDLC Evaluation Framework

Agent/LLM 开发流程的 Evaluation-driven Loop — SWE-bench Verified、METR、Ragas、DeepEval、LangSmith、Braintrust、AWS Labs aidlc-evaluator 对比

Trace → Dataset Materializer

Langfuse OTel 트레이스를 S3 Parquet/Iceberg로 적재하고 Ragas + LLM Judge Fleet로 Reward를 레이블링해 GRPO/DPO 학습 데이터셋을 자동 구성합니다.