🧪 Agent 性能评分系统
LLM Agent Runtime Benchmark — 5 维量化评分,Python 自测脚本,stdlib only
71
B⚠️
最新实测 · 2026-06-03 10:04 · DeepSeek-chat
🚀 响应速度
15.2
D❌ · P50 4.29s
✅ 稳定性
120
S++🏆 · 100%
📊 压力表现
113.1
S+🥇 · 衰减 -2.3%
💾 资源效率
60
B⚠️ · 内存 874MB/1870MB
🔧 工具链
48.4
C🔻 · Py导入 0.736s
📥 立即体验
下载脚本,在服务器上运行即得评分卡
|# 完整输出 python3 bench_agent.py # 精简输出(适合聊天框) python3 bench_agent.py --brief # 静默模式(仅写 JSON 文件) python3 bench_agent.py --json
📦 GitHub:fegrous/agent-benchmark
📐 五维评分体系
| 维度 | 权重 | 指标 | S级门槛 | 计分 |
|---|---|---|---|---|
| 🚀 响应速度 | 30% | P50 单次往返 | ≤ 0.8s | 线性内插 |
| ✅ 稳定性 | 25% | 成功率 % | ≥ 99% | 直接取百分比 |
| 📊 压力表现 | 20% | 衰减率 % | ≤ 0% | 线性内插 |
| 💾 资源效率 | 15% | min(CPU分, 内存分) | ≥ 90分 | 两指标取低 |
| 🔧 工具链 | 10% | min(Python分, 磁盘分) | ≥ 90分 | 两指标取低 |
🏅 等级标准
| 总分 | 评级 | 含义 |
|---|---|---|
| 108~120 | S+ 🥇 | 极致 |
| 90~107 | S 🏆 | 顶配 |
| 75~89 | A ✅ | 优良 |
| 60~74 | B ⚠️ | 及格 |
| 30~59 | C 🔻 | 需优化 |
| < 30 | D ❌ | 严重 |
🚀 响应速度评分公式
| 等级 | P50 | 计分公式 |
|---|---|---|
| S 🏆 | ≤ 0.8s | 100 - (P50/0.8) × 10 |
| A ✅ | 0.8~1.5s | 89 - (P50-0.8)/0.7 × 14 |
| B ⚠️ | 1.5~3.0s | 74 - (P50-1.5)/1.5 × 14 |
| C 🔻 | 3.0~6.0s | 59 - (P50-3.0)/3.0 × 19 |
| D ❌ | > 6.0s | max(35, 40-(P50-6)/24×5) |
📄 输出格式
脚本输出 JSON 到 /tmp/agent_bench_report.json,供其他程序/Agent 读取:
{
"scores": {
"speed": {"score": 39.9, "grade": "D ❌", "weight": 0.3},
"stability": {"score": 100, "grade": "S 🏆", "weight": 0.25},
"stress": {"score": 76.8, "grade": "A ✅", "weight": 0.2},
"resource": {"score": 48.1, "grade": "C ❌", "weight": 0.15},
"toolchain": {"score": 85.6, "grade": "A ✅", "weight": 0.1}
},
"total_score": 68.1,
"total_grade": "B ⚠️"
}其他 Agent 直接 load('/tmp/agent_bench_report.json') 就能解读评分。