eval-driven-dev

Skill

by yiouli

clawhub07/10

为 Python LLM 应用埋点,构建黄金数据集,编写评估测试并运行,根因分析失败,覆盖完整评估驱动开发周期。

为Python LLM应用提供埋点插桩、黄金数据集构建、评测用例编写、自动运行与失败根因分析的完整评测驱动开发工作流

📊 商业分析

商业模式
freemium
独特价值
从埋点到黄金数据集到失败根因分析的LLM评测全链路自动化
竞品
1. LangSmith(LangChain官方评测平台,生态更完整但绑定LangChain);2. Braintrust(专业LLM评测SaaS,功能更丰富但价格较高);3. PromptFoo(开源评测工具,社区活跃但需自行搭建)

🎯 应用场景

目标用户
Python LLM应用开发者AI产品QA工程师MLOps/LLMOps工程师

📦 安装方式

openclaw install yiouli-eval-driven-dev
🔗 安装/下载链接 →