llm-evaluator

Skill

by aiwithabidi

clawhub07/10

基于 Langfuse 的 LLM 评判系统,对 AI 输出进行相关性、准确性、幻觉和有用性评分。支持对历史轨迹的补录评分...

基于Langfuse的LLM裁判评估系统,对AI输出进行相关性、准确性、幻觉率、有用性四维度自动评分,支持历史数据回填分析

📊 商业分析

商业模式
freemium
独特价值
基于Langfuse实现历史轨迹批量回填评分,四维度自动化LLM裁判
竞品
1. Ragas(开源RAG评估框架,更专注RAG场景,无可视化面板);2. DeepEval(功能更全但配置复杂,无Langfuse集成);3. Langsmith Evaluators(与LangChain深度绑定,生态封闭)

🎯 应用场景

目标用户
AI产品开发团队LLM应用质量工程师AI创业公司技术负责人

📦 安装方式

openclaw install aiwithabidi-llm-evaluator
🔗 安装/下载链接 →