Gemma-4 (思考)

gemma-4-26B-A4B-it-qat-heretic-UD-Q4_K_XL.gguf · Q4_K_XL · 13.3 GB
🧠 MoE (4B active)📦 13.3 GB⚡ In 832 t/s · Out 53.9 t/s🎮 RTX 5070 Ti 16GB + 128GB RAM📅 2026-06-19
加权总分
91.6
TC×0.3 + BF×0.3 + HA×0.4
ToolCall-15
93.3
14/15 通过 · 93%
BugFind-15
96
14/15 通过 · 93% 🏆
HermesAgent-20
87
14/20 通过 · 70%

📋 全部测试结果

全部 (50)
ToolCall (15)
BugFind (15)
HermesAgent (20)
❌ 失败 (12)
#题目测试包难度结果得分sandbox耗时失败类型点评

🔍 错题分析

🌊 📊 模型评估总结

✅ 优势

  • BugFind 96 分全场最高,思考模式让代码调试能力从 86 飙升到 96(+10分)
  • BF-10 Trap 题通过——这是九个模型中唯一一个通过此题的
  • HermesAgent 87 分全场最高,Agent 场景综合能力最强

⚠️ 不足

  • ToolCall 93.3 分,低于无思考版(96.7),思考模式在工具调用场景反而有负面影响
  • HA-07 代码批量处理仍然失败(30分),HA-16 消息投递仍然失败
  • 思考模式增加推理延迟,实际吞吐量低于无思考版

📋 测试环境

  • 硬件 — RTX 5070 Ti 16GB + 128GB RAM,MoE模型部分专家层offload到CPU
  • 推理后端 — llama.cpp
  • 测试包 — ToolCall-15 / BugFind-15 / HermesAgent-20(共 50 题)
  • 模型下载 — HF: SC117

Gemma-4 思考版是本次测试的'黑马之王'——BugFind 96 分全场最高,BF-10 Trap 题九个模型里唯一通过的。HermesAgent 87 分也是全场最高。但 ToolCall 反而比无思考版低了(96.7→93.3),说明'想太多'有时候会干扰简单的工具调用流程。