peer-review

Skill

by staybased

clawhub06/10

利用 Ollama 调用本地 LLM 构建多模型同行评审层,用于捕捉云端模型输出中的错误。流程包括向 2-3 个本地模型分发审查任务、汇总标记信号并合成共识。 适用场景:验证交易分析、审查智能体输出质量、测试本地模型准确性、在发布或执行高风险 Claude 输出前进行校验。 禁用场景:简单事实核查(直接网页搜索即可)、无需多模型共识的任务、对延迟敏感(无法接受 60 秒延迟)的决策、审查琐碎或低风险内容。 反面示例: - “检查日期是否正确” → 不适用,直接网页搜索即可。 - “审查我的购物清单” → 不适用,不值得消耗多模型推理资源。 - “我需要在 5 秒内得到答案” → 不适用,同行评审会增加 30-60 秒延迟。 边界情况: - 短文本(<50 词)→ 模型可能无法发现实质性问题,建议跳过。 - 高度专业领域 → 本地模型可能缺乏领域知识,应降低标记权重。 - 创意写作 → 事实审查适用性较差,仅用于检查逻辑一致性。

通过Ollama调用2-3个本地LLM对云端AI输出进行扇出评审,聚合异议标记并合成多模型共识,有效捕捉错误与幻觉。

📊 商业分析

商业模式
free
独特价值
本地LLM扇出审查云模型输出,隐私安全且多模型共识纠错
竞品
1. LangChain Evaluation框架——功能更完整但无本地LLM聚合;2. PromptFoo——专注prompt测试但缺乏多模型共识机制;3. Ollama原生多模型调用——需自行实现聚合逻辑

🎯 应用场景

目标用户
AI Agent开发者量化/交易分析师企业AI质量保障团队

📦 安装方式

openclaw install staybased-peer-review
🔗 安装/下载链接 →