🧪 Agent 性能评分系统

LLM Agent Runtime Benchmark — 5 维量化评分,Python 自测脚本,stdlib only

71
B⚠️
最新实测 · 2026-06-03 10:04 · DeepSeek-chat
🚀 响应速度
15.2
D❌ · P50 4.29s
✅ 稳定性
120
S++🏆 · 100%
📊 压力表现
113.1
S+🥇 · 衰减 -2.3%
💾 资源效率
60
B⚠️ · 内存 874MB/1870MB
🔧 工具链
48.4
C🔻 · Py导入 0.736s

📥 立即体验

下载脚本,在服务器上运行即得评分卡

⬇️ 从 GitHub 下载 bench_agent.py
|
# 完整输出
python3 bench_agent.py

# 精简输出(适合聊天框)
python3 bench_agent.py --brief

# 静默模式(仅写 JSON 文件)
python3 bench_agent.py --json

📦 GitHub:fegrous/agent-benchmark

📐 五维评分体系

维度权重指标S级门槛计分
🚀 响应速度30%P50 单次往返≤ 0.8s线性内插
✅ 稳定性25%成功率 %≥ 99%直接取百分比
📊 压力表现20%衰减率 %≤ 0%线性内插
💾 资源效率15%min(CPU分, 内存分)≥ 90分两指标取低
🔧 工具链10%min(Python分, 磁盘分)≥ 90分两指标取低

🏅 等级标准

总分评级含义
108~120S+ 🥇极致
90~107S 🏆顶配
75~89A ✅优良
60~74B ⚠️及格
30~59C 🔻需优化
< 30D ❌严重

🚀 响应速度评分公式

等级P50计分公式
S 🏆≤ 0.8s100 - (P50/0.8) × 10
A ✅0.8~1.5s89 - (P50-0.8)/0.7 × 14
B ⚠️1.5~3.0s74 - (P50-1.5)/1.5 × 14
C 🔻3.0~6.0s59 - (P50-3.0)/3.0 × 19
D ❌> 6.0smax(35, 40-(P50-6)/24×5)

📄 输出格式

脚本输出 JSON 到 /tmp/agent_bench_report.json,供其他程序/Agent 读取:

{
  "scores": {
    "speed":      {"score": 39.9, "grade": "D ❌", "weight": 0.3},
    "stability":  {"score": 100,  "grade": "S 🏆", "weight": 0.25},
    "stress":     {"score": 76.8, "grade": "A ✅", "weight": 0.2},
    "resource":   {"score": 48.1, "grade": "C ❌", "weight": 0.15},
    "toolchain":  {"score": 85.6, "grade": "A ✅", "weight": 0.1}
  },
  "total_score": 68.1,
  "total_grade": "B ⚠️"
}

其他 Agent 直接 load('/tmp/agent_bench_report.json') 就能解读评分。