🧪 Agent 性能评分系统

LLM Agent Runtime Benchmark — 5 维量化评分，Python 自测脚本，stdlib only

B⚠️

最新实测 · 2026-06-03 10:04 · DeepSeek-chat

🚀 响应速度

15.2

D❌ · P50 4.29s

✅ 稳定性

120

S++🏆 · 100%

📊 压力表现

113.1

S+🥇 · 衰减 -2.3%

💾 资源效率

B⚠️ · 内存 874MB/1870MB

🔧 工具链

48.4

C🔻 · Py导入 0.736s

📥 立即体验

下载脚本，在服务器上运行即得评分卡

⬇️ 从 GitHub 下载 bench_agent.py

# 完整输出
python3 bench_agent.py

# 精简输出（适合聊天框）
python3 bench_agent.py --brief

# 静默模式（仅写 JSON 文件）
python3 bench_agent.py --json

📦 GitHub：fegrous/agent-benchmark

📐 五维评分体系

维度	权重	指标	S级门槛	计分
🚀 响应速度	30%	P50 单次往返	≤ 0.8s	线性内插
✅ 稳定性	25%	成功率 %	≥ 99%	直接取百分比
📊 压力表现	20%	衰减率 %	≤ 0%	线性内插
💾 资源效率	15%	min(CPU分, 内存分)	≥ 90分	两指标取低
🔧 工具链	10%	min(Python分, 磁盘分)	≥ 90分	两指标取低

🏅 等级标准

总分	评级	含义
108~120	S+ 🥇	极致
90~107	S 🏆	顶配
75~89	A ✅	优良
60~74	B ⚠️	及格
30~59	C 🔻	需优化
< 30	D ❌	严重

🚀 响应速度评分公式

等级	P50	计分公式
S 🏆	≤ 0.8s	100 - (P50/0.8) × 10
A ✅	0.8~1.5s	89 - (P50-0.8)/0.7 × 14
B ⚠️	1.5~3.0s	74 - (P50-1.5)/1.5 × 14
C 🔻	3.0~6.0s	59 - (P50-3.0)/3.0 × 19
D ❌	> 6.0s	max(35, 40-(P50-6)/24×5)

📄 输出格式

脚本输出 JSON 到 /tmp/agent_bench_report.json，供其他程序/Agent 读取：

{
  "scores": {
    "speed":      {"score": 39.9, "grade": "D ❌", "weight": 0.3},
    "stability":  {"score": 100,  "grade": "S 🏆", "weight": 0.25},
    "stress":     {"score": 76.8, "grade": "A ✅", "weight": 0.2},
    "resource":   {"score": 48.1, "grade": "C ❌", "weight": 0.15},
    "toolchain":  {"score": 85.6, "grade": "A ✅", "weight": 0.1}
  },
  "total_score": 68.1,
  "total_grade": "B ⚠️"
}

其他 Agent 直接 load('/tmp/agent_bench_report.json') 就能解读评分。