gpu-cluster-monitor

MCP Server

by sounderliu

clawhub07/10

监控GPU集群的健康与使用情况,提供实时状态、性能指标和警报,以实现高效的资源管理。

实时监控GPU集群健康状态与利用率,提供性能指标采集、异常告警和资源使用分析,助力高效管理GPU算力资源。

📊 商业分析

商业模式
freemium
独特价值
通过自然语言对话实时查询GPU集群状态与异常告警
竞品
DCGM Exporter+Grafana(开源免费但需自行搭建)、Run:ai(企业级GPU编排平台,功能更全但价格高)、Nebuly(AI推理优化监控,侧重成本优化)

🎯 应用场景

目标用户
AI训练平台运维工程师GPU云服务提供商大模型研发团队负责人

📦 安装方式

openclaw install sounderliu-gpu-cluster-monitor
🔗 安装/下载链接 →