agent-evaluation

Skill

by rustyorb

clawhub67/10

{"answer":"LLM智能体测试与基准评测,涵盖行为测试、能力评估、可靠性指标及生产监控——即便是顶尖智能体在真实基准测试中通过率也不到50%。适用场景:智能体测试、智能体评估、智能体基准、智能体可靠性、测试智能体。"}

提供LLM智能体全面测试方案,涵盖行为测试、能力评估、可靠性度量及生产环境监控,揭示真实场景下Agent不足50%的表现瓶颈

📊 商业分析

商业模式
freemium
独特价值
覆盖行为测试+能力评估+可靠性指标+生产监控的全链路Agent评测
竞品
1. LangSmith(LangChain官方评测平台,生态更完整但重度绑定);2. Braintrust(商业评测SaaS,功能更全但价格高);3. PromptFoo(开源评测工具,偏prompt测试缺乏agent行为分析)

🎯 应用场景

目标用户
AI应用开发者LLM产品经理AI基础设施工程师

📦 安装方式

openclaw install rustyorb-agent-evaluation
🔗 安装/下载链接 →