我写了个量化评分系统,给 Agent 打了 71 分

如果你也是整天跟各种 AI Agent 打交道的,应该跟我有同感——每次换了个模型、改了点配置,总觉得"好像变快了?"、"是不是更稳定了?"全是体感,没有数字。吹了半天也没证据。

于是我花了一个下午,写了个 Agent 性能基准测试评分系统,跑完直接出 5 维评分卡,量化到分。

为什么要量化

之前判断 Agent 好不好全靠玄学:

  • "感觉响应变快了" → 实际上可能只是心情问题
  • "好像挺稳定的" → 连续跑 10 次试试?
  • "这个模型比那个好" → 好多少?10% 还是 100%?

把性能拆成 5 个维度,每个维度打分归档,总分聚合,这样换模型、调配置之后到底有没有提升,看数字就一目了然。

评分维度

满分 120 分(设这么高是因为理论上几乎所有维度都能做到顶配,但实际情况完全不是这么回事):

| 维度 | 权重 | 满分 | 评测方式 |
|------|------|------|----------|
| 🚀 响应速度 | 30% | 36 | 5 次单轮往返,P50/P95 耗时 |
| ✅ 系统稳定性 | 25% | 30 | 10 次简单指令成功率 |
| 📊 压力表现 | 20% | 24 | 10 轮连续对话,计算衰减率 |
| 💾 资源效率 | 15% | 18 | CPU 占用 + 内存余量 |
| 🔧 工具链 | 10% | 12 | Python 导入耗时 + 磁盘 IO |

每个维度用不同的惩罚曲线(指数衰减、sigmoid、双曲函数),拿满分极其困难。比如响应速度维度,P50 要低于 0.5s 才能满分,我的 DeepSeek-chat 实测 4.29s,直接被打到 15.2 分——

实测结果

在阿里的 2 核小机上用 DeepSeek-chat 跑了一轮:

🏆 总分 71.0 → B ⚠️
🚀速度 15.2 D ❌ | ✅稳定 120.0 S++ 🏆 | 📊压力 113.1 S+ 🥇 | 💾资源 60.0 B ⚠️ | 🔧工具 48.4 C 🔻

速度 15.2 分 D 级——这个是最大的瓶颈。API 往返 4.3 秒,在这个评分体系下直接被按在地上摩擦。

稳定性 120 分满分——10 次简单指令全部成功,这点不意外,DeepSeek-chat 本身稳定。

压力 113.1 分 S+——10 轮对话只衰减了 2.3%,基本没掉速,挺意外的。

资源 60.0 分 B——服务器只有 1.8G 内存,系统占了 900MB,还剩 874MB 给 Agent,勉强够用。

工具链 48.4 分 C——主要扣在环境上,Python 导入三个包用了 0.74 秒。

📌 实测结论: 这个服务器上最大的瓶颈是 API 往返延迟(阿里云到 DeepSeek 的跨网延迟),而不是本地计算能力。如果换一个延迟更低的模型或在国内部署,速度分能直接拉到 90+,总分直奔 A 级。

怎么用

GitHub 上有完整脚本,直接在你自己的服务器上跑:

# 下载脚本
wget https://fegrous.top/benchmark/bench_agent.py
# 运行
python3 bench_agent.py        # 完整输出
python3 bench_agent.py --brief # 精简版
python3 bench_agent.py --json  # 只输出 JSON

跑完会生成一份完整的 JSON 报告放在 /tmp/agent_bench_report.json,可以直接丢给前端展示。

在线演示

我也做了个展示页面,直接读 JSON 文件动态显示:

👉 Agent 性能评分系统

页面展示总分、5 维度评分、数据表格,还提供了脚本下载。如果你也跑了自己的 Agent,欢迎发分数来对比。


以后换模型、换配置,直接跑一遍脚本看分数说话,再也不凭感觉了。