QwenPaw-Flash-9B (思考)

QwenPaw-Flash-9B-heretic-MTP-Q6_K.gguf · Q6_K · 7.0 GB
🧠 Dense 9B📦 7.0 GB⚡ In 507 t/s · Out 90.3 t/s🎮 RTX 5070 Ti 16GB + 128GB RAM📅 2026-06-19
加权总分
87.2
TC×0.3 + BF×0.3 + HA×0.4
ToolCall-15
100
15/15 通过 · 100% 🏆
BugFind-15
84
10/15 通过 · 67%
HermesAgent-20
80
12/20 通过 · 60%

📋 全部测试结果

全部 (50)
ToolCall (15)
BugFind (15)
HermesAgent (20)
❌ 失败 (12)
#题目测试包难度结果得分sandbox耗时失败类型点评

🔍 错题分析

🌊 📊 模型评估总结

✅ 优势

  • ToolCall 满分 100/100,与 Qwen3.6-35B 思考版并列全场最高
  • 9B 稠密模型仅 7.9GB 体积,性价比极高,适合资源受限环境
  • 推理速度 90.3 t/s 全场最快(输出速度),响应速度优势明显

⚠️ 不足

  • BugFind 84 分低于大多数思考版模型,深度代码调试能力受限于 9B 参数量
  • HermesAgent 80 分,低于 Gemma-4 系列(84.8/87)和 Qwen3.6-27B(84.8)
  • BF-03/BF-10 Trap 题均失败,HA-07/HA-16 也失败

📋 测试环境

  • 硬件 — RTX 5070 Ti 16GB + 128GB RAM,MoE模型部分专家层offload到CPU
  • 推理后端 — llama.cpp
  • 测试包 — ToolCall-15 / BugFind-15 / HermesAgent-20(共 50 题)
  • 模型下载 — HF: SC117

QwenPaw-Flash-9B 是全场最'经济适用'的选手——7.9GB 体积拿到 87.2 分,ToolCall 还是满分。90.3 t/s 的输出速度全场最快,响应体验碾压所有大模型。但 9B 参数量的天花板也很明显——BugFind 84 分已经是极限了。