reddi-agent-evaluation

Name: reddi-agent-evaluation
Author: nissan

Skill

by nissan

clawhub⭐ 06/10

reddi.tech 的 agent-evaluation 分支。用于测试和基准测试 LLM 智能体，涵盖行为测试、能力评估、可靠性指标及生产相关内容。

基于reddi.tech的Agent评测框架，支持LLM智能体行为测试、能力评估、可靠性度量及生产环境基准测试，帮助团队量化Agent质量。

📊 商业分析

商业模式

freemium

独特价值

行为测试+能力评估+可靠性指标三合一Agent专项评测框架

竞品

1. LangSmith（LangChain官方评测平台，生态更完整但重度绑定）；2. PromptFoo（开源prompt测试工具，更轻量但功能单一）；3. Ragas（RAG专项评估框架，垂直场景更深但覆盖面窄）

目标用户

AI应用开发者LLM产品质量工程师企业AI落地团队

openclaw install nissan-reddi-agent-evaluation

LLM评测Agent基准测试行为测试可靠性指标能力评估