skill-eval

Name: skill-eval
Author: jensen-srp

Skill

by jensen-srp

clawhub⭐ 07/10

自主引擎，通过评分标准、错误分类和改进反馈循环，系统地评估和排名跨模型的智能体技能。

自主评估引擎，通过评分标准、错误分类和改进反馈循环，系统化评估并排名跨模型Agent技能表现，辅助AI能力优化决策。

📊 商业分析

商业模式

freemium

独特价值

跨模型自动评分+错误分类+改进建议形成完整评估闭环

竞品

1. OpenAI Evals（官方评估框架，生态强但不支持跨模型Agent技能横向排名）；2. LangSmith（LangChain生态评估工具，侧重链路追踪而非技能打分）；3. PromptFoo（Prompt测试工具，缺乏错误分类与改进反馈闭环）

目标用户

AI产品经理/研究员企业AI能力建设团队Agent开发者与Prompt工程师

openclaw install jensen-srp-skill-eval

Agent评估技能基准测试多模型对比错误分类自动评分