BenchLocal · 模型测试数据库

🏆 模型排行榜

综合排序

ToolCall

BugFind

HermesAgent

79.5/100

Step-3.7-Flash-APEX-I-Mini (思考)

Step-3.7-Flash-APEX-I-Mini.gguf · Q3_K_M · 67.9 GB

🧠 MoE 📦 67.0 GB ⚡ In 98 t/s · Out 13.9 t/s 🎮 RTX 5070 Ti 🌡️ temp=1.0

ToolCall-15

BugFind-15

HermesAgent-20

2026-06-18 测试查看详情 →

75.7/100

Nex-N2-Mini-abliterated-APEX (思考)

Huihui-Nex-N2-mini-abliterated-APEX-I-Compact.gguf · Q4_K_M · 15.4 GB

🧠 MoE 📦 15.4 GB ⚡ In 321 t/s · Out 62.5 t/s 🎮 RTX 5070 Ti 🌡️ temp=0.7 top_p=0.95 top_k=40

ToolCall-15

BugFind-15

68.7

HermesAgent-20

2026-06-19 测试查看详情 →

79.6/100

Qwen3.6-35B-A3B-uncensored (无思考)

Qwen3.6-35B-A3B-uncensored-heretic-APEX-I-Compact.gguf · Q4_K_M · 16.1 GB

🧠 MoE 📦 16.1 GB ⚡ In 766 t/s · Out 62.6 t/s 🎮 RTX 5070 Ti 🌡️ temp=0.7 top_p=0.8 top_k=20 rep=1.5

ToolCall-15

83.3

BugFind-15

80.7

HermesAgent-20

2026-06-19 测试查看详情 →

87.2/100

Qwen3.6-35B-A3B-uncensored (思考)

Qwen3.6-35B-A3B-uncensored-heretic-APEX-I-Compact.gguf · Q4_K_M · 16.1 GB

🧠 MoE 📦 16.1 GB ⚡ In 766 t/s · Out 62.6 t/s 🎮 RTX 5070 Ti 🌡️ temp=1.0 top_p=0.95 top_k=20 rep=1.5

ToolCall-15

100

BugFind-15

88.7

HermesAgent-20

76.5

2026-06-19 测试查看详情 →

88.7/100

Gemma-4-26B-A4B-it (无思考)

gemma-4-26B-A4B-it-qat-heretic-UD-Q4_K_XL.gguf · Q4_K_XL · 13.3 GB

🧠 MoE 4B active 📦 13.3 GB ⚡ In 832 t/s · Out 53.9 t/s 🌡️ temp=1.0 top_p=0.95 top_k=64

ToolCall-15

96.7

BugFind-15

HermesAgent-20

84.8

2026-06-19 测试查看详情 →

91.6/100

Gemma-4-26B-A4B-it (思考)

gemma-4-26B-A4B-it-qat-heretic-UD-Q4_K_XL.gguf · Q4_K_XL · 13.3 GB

🧠 MoE 4B active 📦 13.3 GB ⚡ In 832 t/s · Out 53.9 t/s 🌡️ temp=1.0 top_p=0.95 top_k=64

ToolCall-15

93.3

BugFind-15

HermesAgent-20

2026-06-19 测试查看详情 →

87.2/100

QwenPaw-Flash-9B-MTP-heretic (思考)

QwenPaw-Flash-9B-heretic-MTP-Q6_K.gguf · Q6_K · 7.0 GB

🧠 Dense 9B 📦 7.0 GB ⚡ In 507 t/s · Out 90.3 t/s 🌡️ temp=1.0 top_p=0.95 top_k=20 rep=1.5

ToolCall-15

100

BugFind-15

HermesAgent-20

2026-06-19 测试查看详情 →

87.4/100

Qwen3.6-27B-uncensored (无思考)

Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved.i1-IQ3_M.gguf · IQ3_M · 11.9 GB

🧠 Dense 27B 📦 11.9 GB ⚡ In 725 t/s · Out 60.6 t/s 🌡️ temp=0.7 top_p=0.8 top_k=20 rep=1.5

ToolCall-15

96.7

BugFind-15

84.2

HermesAgent-20

82.8

2026-06-19 测试查看详情 →

91.9/100

Qwen3.6-27B-uncensored (思考)

Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved.i1-IQ3_M.gguf · IQ3_M · 11.9 GB

🧠 Dense 27B 📦 11.9 GB ⚡ In 725 t/s · Out 60.6 t/s 🌡️ temp=1.0 top_p=0.95 top_k=20 rep=1.5

ToolCall-15

100

BugFind-15

93.3

HermesAgent-20

84.8

2026-06-19 测试查看详情 →

94.0/100

DeepSeek-V4-Flash (思考 · API)

🧠 Dense ☁️ OpenCode API 📅 2026-06-19

ToolCall-15

100

BugFind-15

93.3

HermesAgent-20

2026-06-19 测试 · ⚡ 作为参考查看详情 →

⚡ 关于 BenchLocal

BenchLocal 是一个本地优先的桌面应用，用于运行、比较和管理可安装的 LLM Bench Packs。支持本地或远程模型，通过可安装的测试包对模型进行标准化评估。

📋 测试项目

ToolCall-15 — 15 题工具调用测试，覆盖参数提取、多轮上下文、并行调用等
BugFind-15 — 15 题跨语言代码调试，含 2 道 Trap 陷阱题，难度 Easy~Expert
HermesAgent-20 — 20 题 Agent 场景测试，覆盖记忆管理、技能创建、调度投递等
测试标准 — 错题可不断重试，直到多次重试后分数不再增加为止
加权总分 — ToolCall×0.3 + BugFind×0.3 + HermesAgent×0.4

📊 测试总结

基于 BenchLocal 在同一硬件环境下的本地推理测试，横向对比 9 个模型配置

🏆 核心发现

思考模式显著提升成绩 — Qwen3.6-27B 从无思考版 87.4 提升到思考版 91.9（+4.5），Gemma-4 从 88.7 提升到 91.6（+2.9）
BugFind 是区分度最高的测试 — 从最低 68.7（N2-Mini）到最高 96（Gemma-4 思考版），差距 27.3 分
HA-16 消息投递是所有模型的死穴 — 九个模型全部失败，最高分仅 30 分
BF-10 Trap 是最难突破的陷阱题 — 九个模型中只有 Gemma-4 思考版（91.6 分）通过
27B 稠密模型（87.4/91.9）全面碾压 35B MoE 无思考版（79.6） — 说明架构类型和思考模式比参数量更重要
最小模型也能拿高分 — QwenPaw-Flash-9B（7.9GB）拿到 87.2 分，ToolCall 满分

⚠️ 已知局限

HA-16（消息投递）全军覆没 — 所有模型都无法找到正确的消息通道，可能是测试框架问题而非模型能力
HA-07（代码批量处理）大部分失败 — 仅 Qwen3.6-27B 无思考版和 Qwen3.6-27B 思考版通过
Trap 题仍然难以应对 — BF-03 和 BF-10 测试模型的批判性思维，大多数模型会被用户话术误导
思考模式有副作用 — Qwen3.6-27B 思考版 HA-14 反而比无思考版差（100→70），TC-08 条件流也可能翻车

💡 测试环境

硬件 — RTX 5070 Ti 16GB + 128GB RAM，MoE模型部分专家层offload到CPU
推理后端 — llama.cpp
测试包 — ToolCall-15 / BugFind-15 / HermesAgent-20（共 50 题）
模型下载 — HF: SC117

本地模型测试数据库

🏆 模型排行榜

Step-3.7-Flash-APEX-I-Mini (思考)

Nex-N2-Mini-abliterated-APEX (思考)

Qwen3.6-35B-A3B-uncensored (无思考)

Qwen3.6-35B-A3B-uncensored (思考)

Gemma-4-26B-A4B-it (无思考)

Gemma-4-26B-A4B-it (思考)

QwenPaw-Flash-9B-MTP-heretic (思考)

Qwen3.6-27B-uncensored (无思考)

Qwen3.6-27B-uncensored (思考)

⚡ 关于 BenchLocal

📋 测试项目

📊 测试总结

🏆 核心发现

⚠️ 已知局限

💡 测试环境

本地模型
测试数据库