我写了个量化评分系统，给 Agent 打了 71 分

如果你也是整天跟各种 AI Agent 打交道的，应该跟我有同感——每次换了个模型、改了点配置，总觉得"好像变快了？"、"是不是更稳定了？"全是体感，没有数字。吹了半天也没证据。

于是我花了一个下午，写了个 Hermes Agent 性能基准测试评分系统（专为 Hermes Agent 设计，依赖 hermes chat CLI 指令），跑完直接出 5 维评分卡，量化到分。

为什么要量化

之前判断 Agent 好不好全靠玄学：

"感觉响应变快了" → 实际上可能只是心情问题
"好像挺稳定的" → 连续跑 10 次试试？
"这个模型比那个好" → 好多少？10% 还是 100%？

把性能拆成 5 个维度，每个维度打分归档，总分聚合，这样换模型、调配置之后到底有没有提升，看数字就一目了然。

评分维度

满分 120 分（设这么高是因为理论上几乎所有维度都能做到顶配，但实际情况完全不是这么回事）：

| 维度 | 权重 | 满分 | 评测方式 |
|------|------|------|----------|
| 🚀 响应速度 | 30% | 36 | 5 次单轮往返，P50/P95 耗时 |
| ✅ 系统稳定性 | 25% | 30 | 10 次简单指令成功率 |
| 📊 压力表现 | 20% | 24 | 10 轮连续对话，计算衰减率 |
| 💾 资源效率 | 15% | 18 | CPU 占用 + 内存余量 |
| 🔧 工具链 | 10% | 12 | Python 导入耗时 + 磁盘 IO |

每个维度用不同的惩罚曲线（指数衰减、sigmoid、双曲函数），拿满分极其困难。比如响应速度维度，P50 要低于 0.5s 才能满分，我的 DeepSeek-chat 实测 4.29s，直接被打到 15.2 分——

实测结果

在阿里的 2 核小机上用 DeepSeek-chat 跑了一轮：

🏆 总分 71.0 → B ⚠️
🚀速度 15.2 D ❌ | ✅稳定 120.0 S++ 🏆 | 📊压力 113.1 S+ 🥇 | 💾资源 60.0 B ⚠️ | 🔧工具 48.4 C 🔻

速度 15.2 分 D 级——这个是最大的瓶颈。API 往返 4.3 秒，在这个评分体系下直接被按在地上摩擦。

稳定性 120 分满分——10 次简单指令全部成功，这点不意外，DeepSeek-chat 本身稳定。

压力 113.1 分 S+——10 轮对话只衰减了 2.3%，基本没掉速，挺意外的。

资源 60.0 分 B——服务器只有 1.8G 内存，系统占了 900MB，还剩 874MB 给 Agent，勉强够用。

工具链 48.4 分 C——主要扣在环境上，Python 导入三个包用了 0.74 秒。

📌 实测结论： 这个服务器上最大的瓶颈是 API 往返延迟（阿里云到 DeepSeek 的跨网延迟），而不是本地计算能力。如果换一个延迟更低的模型或在国内部署，速度分能直接拉到 90+，总分直奔 A 级。

怎么用

GitHub 上有完整脚本，直接在你自己的服务器上跑：

# 下载脚本
wget https://fegrous.top/benchmark/bench_agent.py
# 运行
python3 bench_agent.py        # 完整输出
python3 bench_agent.py --brief # 精简版
python3 bench_agent.py --json  # 只输出 JSON

跑完会生成一份完整的 JSON 报告放在 /tmp/agent_bench_report.json，可以直接丢给前端展示。

在线演示

我也做了个展示页面，直接读 JSON 文件动态显示：

👉 Agent 性能评分系统

页面展示总分、5 维度评分、数据表格，还提供了脚本下载。如果你也跑了自己的 Agent，欢迎发分数来对比。

---

以后换模型、换配置，直接跑一遍脚本看分数说话，再也不凭感觉了。

我写了个量化评分系统，给 Agent 打了 71 分

我写了个量化评分系统，给 Agent 打了 71 分

为什么要量化

评分维度

实测结果

怎么用

在线演示

💬 评论 0