本地模型
测试数据库

基于 BenchLocal 桌面应用,在本地对真实任务进行基准测试,横向对比模型表现

当前测试环境:RTX 5070 Ti 16GB + 128GB RAM · MoE模型部分专家层offload到CPU

10
已测试模型
50
总测试题数
3
测试项目

🏆 模型排行榜

综合排序
ToolCall
BugFind
HermesAgent
1
79.5/100

Step-3.7-Flash-APEX-I-Mini (思考)

Step-3.7-Flash-APEX-I-Mini.gguf · Q3_K_M · 67.9 GB
🧠 MoE 📦 67.0 GB ⚡ In 98 t/s · Out 13.9 t/s 🎮 RTX 5070 Ti 🌡️ temp=1.0
ToolCall-15
93
BugFind-15
78
HermesAgent-20
70
2
75.7/100

Nex-N2-Mini-abliterated-APEX (思考)

Huihui-Nex-N2-mini-abliterated-APEX-I-Compact.gguf · Q4_K_M · 15.4 GB
🧠 MoE 📦 15.4 GB ⚡ In 321 t/s · Out 62.5 t/s 🎮 RTX 5070 Ti 🌡️ temp=0.7 top_p=0.95 top_k=40
ToolCall-15
90
BugFind-15
68.7
HermesAgent-20
71
3
79.6/100

Qwen3.6-35B-A3B-uncensored (无思考)

Qwen3.6-35B-A3B-uncensored-heretic-APEX-I-Compact.gguf · Q4_K_M · 16.1 GB
🧠 MoE 📦 16.1 GB ⚡ In 766 t/s · Out 62.6 t/s 🎮 RTX 5070 Ti 🌡️ temp=0.7 top_p=0.8 top_k=20 rep=1.5
ToolCall-15
83.3
BugFind-15
80.7
HermesAgent-20
76
1
87.2/100

Qwen3.6-35B-A3B-uncensored (思考)

Qwen3.6-35B-A3B-uncensored-heretic-APEX-I-Compact.gguf · Q4_K_M · 16.1 GB
🧠 MoE 📦 16.1 GB ⚡ In 766 t/s · Out 62.6 t/s 🎮 RTX 5070 Ti 🌡️ temp=1.0 top_p=0.95 top_k=20 rep=1.5
ToolCall-15
100
BugFind-15
88.7
HermesAgent-20
76.5
1
88.7/100

Gemma-4-26B-A4B-it (无思考)

gemma-4-26B-A4B-it-qat-heretic-UD-Q4_K_XL.gguf · Q4_K_XL · 13.3 GB
🧠 MoE 4B active 📦 13.3 GB ⚡ In 832 t/s · Out 53.9 t/s 🌡️ temp=1.0 top_p=0.95 top_k=64
ToolCall-15
96.7
BugFind-15
86
HermesAgent-20
84.8
1
91.6/100

Gemma-4-26B-A4B-it (思考)

gemma-4-26B-A4B-it-qat-heretic-UD-Q4_K_XL.gguf · Q4_K_XL · 13.3 GB
🧠 MoE 4B active 📦 13.3 GB ⚡ In 832 t/s · Out 53.9 t/s 🌡️ temp=1.0 top_p=0.95 top_k=64
ToolCall-15
93.3
BugFind-15
96
HermesAgent-20
87
2
87.2/100

QwenPaw-Flash-9B-MTP-heretic (思考)

QwenPaw-Flash-9B-heretic-MTP-Q6_K.gguf · Q6_K · 7.0 GB
🧠 Dense 9B 📦 7.0 GB ⚡ In 507 t/s · Out 90.3 t/s 🌡️ temp=1.0 top_p=0.95 top_k=20 rep=1.5
ToolCall-15
100
BugFind-15
84
HermesAgent-20
80
3
87.4/100

Qwen3.6-27B-uncensored (无思考)

Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved.i1-IQ3_M.gguf · IQ3_M · 11.9 GB
🧠 Dense 27B 📦 11.9 GB ⚡ In 725 t/s · Out 60.6 t/s 🌡️ temp=0.7 top_p=0.8 top_k=20 rep=1.5
ToolCall-15
96.7
BugFind-15
84.2
HermesAgent-20
82.8
1
91.9/100

Qwen3.6-27B-uncensored (思考)

Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved.i1-IQ3_M.gguf · IQ3_M · 11.9 GB
🧠 Dense 27B 📦 11.9 GB ⚡ In 725 t/s · Out 60.6 t/s 🌡️ temp=1.0 top_p=0.95 top_k=20 rep=1.5
ToolCall-15
100
BugFind-15
93.3
HermesAgent-20
84.8
1
94.0/100
DeepSeek-V4-Flash (思考 · API)
🧠 Dense ☁️ OpenCode API 📅 2026-06-19
ToolCall-15
100
BugFind-15
93.3
HermesAgent-20
90

⚡ 关于 BenchLocal

BenchLocal 是一个本地优先的桌面应用,用于运行、比较和管理可安装的 LLM Bench Packs。支持本地或远程模型,通过可安装的测试包对模型进行标准化评估。

📋 测试项目

  • ToolCall-15 — 15 题工具调用测试,覆盖参数提取、多轮上下文、并行调用等
  • BugFind-15 — 15 题跨语言代码调试,含 2 道 Trap 陷阱题,难度 Easy~Expert
  • HermesAgent-20 — 20 题 Agent 场景测试,覆盖记忆管理、技能创建、调度投递等
  • 测试标准 — 错题可不断重试,直到多次重试后分数不再增加为止
  • 加权总分 — ToolCall×0.3 + BugFind×0.3 + HermesAgent×0.4

📊 测试总结

基于 BenchLocal 在同一硬件环境下的本地推理测试,横向对比 9 个模型配置

🏆 核心发现

  • 思考模式显著提升成绩 — Qwen3.6-27B 从无思考版 87.4 提升到思考版 91.9(+4.5),Gemma-4 从 88.7 提升到 91.6(+2.9)
  • BugFind 是区分度最高的测试 — 从最低 68.7(N2-Mini)到最高 96(Gemma-4 思考版),差距 27.3 分
  • HA-16 消息投递是所有模型的死穴 — 九个模型全部失败,最高分仅 30 分
  • BF-10 Trap 是最难突破的陷阱题 — 九个模型中只有 Gemma-4 思考版(91.6 分)通过
  • 27B 稠密模型(87.4/91.9)全面碾压 35B MoE 无思考版(79.6) — 说明架构类型和思考模式比参数量更重要
  • 最小模型也能拿高分 — QwenPaw-Flash-9B(7.9GB)拿到 87.2 分,ToolCall 满分

⚠️ 已知局限

  • HA-16(消息投递)全军覆没 — 所有模型都无法找到正确的消息通道,可能是测试框架问题而非模型能力
  • HA-07(代码批量处理)大部分失败 — 仅 Qwen3.6-27B 无思考版和 Qwen3.6-27B 思考版通过
  • Trap 题仍然难以应对 — BF-03 和 BF-10 测试模型的批判性思维,大多数模型会被用户话术误导
  • 思考模式有副作用 — Qwen3.6-27B 思考版 HA-14 反而比无思考版差(100→70),TC-08 条件流也可能翻车

💡 测试环境

  • 硬件 — RTX 5070 Ti 16GB + 128GB RAM,MoE模型部分专家层offload到CPU
  • 推理后端 — llama.cpp
  • 测试包 — ToolCall-15 / BugFind-15 / HermesAgent-20(共 50 题)
  • 模型下载HF: SC117