Gemma-4 (无思考)

gemma-4-26B-A4B-it-qat-heretic-UD-Q4_K_XL.gguf · Q4_K_XL · 13.3 GB
🧠 MoE (4B active)📦 13.3 GB⚡ In 832 t/s · Out 53.9 t/s🎮 RTX 5070 Ti 16GB + 128GB RAM📅 2026-06-19
加权总分
88.7
TC×0.3 + BF×0.3 + HA×0.4
ToolCall-15
96.7
14/15 通过 · 93%
BugFind-15
86
11/15 通过 · 73%
HermesAgent-20
84.8
14/20 通过 · 70%

📋 全部测试结果

全部 (50)
ToolCall (15)
BugFind (15)
HermesAgent (20)
❌ 失败 (12)
#题目测试包难度结果得分sandbox耗时失败类型点评

🔍 错题分析

🌊 📊 模型评估总结

✅ 优势

  • HermesAgent 84.8 分全场最高之一,Agent 场景能力突出
  • ToolCall 96.7 分,仅差 1 题满分,工具调用能力接近顶尖
  • 唯一通过 HA-04(Docker 修复回忆)的模型之一,记忆召回能力独特

⚠️ 不足

  • Trap 题(BF-03)仍然失败,BF-10 仅 partial(60分)
  • BugFind 86 分,低于 Qwen3.6-27B 无思考版(84.2)和思考版(93.3)
  • HA-10 技能发现、HA-16 消息投递均失败

📋 测试环境

  • 硬件 — RTX 5070 Ti 16GB + 128GB RAM,MoE模型部分专家层offload到CPU
  • 推理后端 — llama.cpp
  • 测试包 — ToolCall-15 / BugFind-15 / HermesAgent-20(共 50 题)
  • 模型下载 — HF: SC117

Gemma-4 无思考版是一个被低估的选手——HermesAgent 84.8 分全场最高,说明它在 Agent 场景下的综合能力是最强的。而且它是唯一通过 HA-04(Docker 修复回忆)的模型之一。14.4GB 的体积也不算大,是个'闷声发大财'的类型。