auto-arena

Skill

by helloml0326

clawhub07/10

无需预设测试数据,自动评估并对比多个AI模型或智能体。基于任务描述生成测试查询并收集响应。

自动从任务描述生成测试查询,无需预置数据集,并行调用多个AI模型收集响应并自动评分对比,输出可视化评测报告。

📊 商业分析

商业模式
freemium
独特价值
零测试数据自动生成查询并多模型并行评测对比
竞品
1. Chatbot Arena(LMSYS)- 人工投票为主,无自动化;2. PromptFoo - 侧重prompt测试而非模型横评;3. OpenAI Evals - 需预置测试集,门槛高

🎯 应用场景

目标用户
AI产品经理LLM应用开发者企业AI选型决策者

📦 安装方式

openclaw install helloml0326-auto-arena
🔗 安装/下载链接 →