Qwen3.6-27B (思考)

Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved.i1-IQ3_M.gguf · IQ3_M · 11.9 GB
🧠 Dense 27B📦 11.9 GB⚡ In 725 t/s · Out 60.6 t/s🎮 RTX 5070 Ti 16GB + 128GB RAM📅 2026-06-19
加权总分
91.9
TC×0.3 + BF×0.3 + HA×0.4
ToolCall-15
100
15/15 通过 · 100% 🏆
BugFind-15
93.3
14/15 通过 · 93%
HermesAgent-20
84.8
14/20 通过 · 70%

📋 全部测试结果

全部 (50)
ToolCall (15)
BugFind (15)
HermesAgent (20)
❌ 失败 (12)
#题目测试包难度结果得分sandbox耗时失败类型点评

🔍 错题分析

🌊 📊 模型评估总结

✅ 优势

  • 加权总分 91.9 全场第一,BugFind 93.3 + HermesAgent 84.8 均为高水平
  • ToolCall 满分 100/100,BF-03 Trap 题通过——思考模式显著提升了批判性思维
  • IQ3_M 量化仅 11.9GB,体积在高分模型中最小,资源效率极高

⚠️ 不足

  • BF-10 Trap 题仍然失败——九个模型中仅 Gemma-4 思考版通过此题
  • HA-16 消息投递 0 分,HA-14 Cron 更新也失败(无思考版反而通过)
  • 思考模式有副作用:HA-14 从无思考版的 100 分退步到 70 分

📋 测试环境

  • 硬件 — RTX 5070 Ti 16GB + 128GB RAM,MoE模型部分专家层offload到CPU
  • 推理后端 — llama.cpp
  • 测试包 — ToolCall-15 / BugFind-15 / HermesAgent-20(共 50 题)
  • 模型下载 — HF: SC117

Qwen3.6-27B 思考版是全场的'终极答案'——91.9 分第一,ToolCall 满分,BugFind 93.3,而且只有 11.9GB 体积。IQ3_M 极低精度量化 + 思考模式的组合证明了一个道理:量化精度不是越高越好,思考模式的推理能力可以弥补量化损失。但 HA-16 消息投递 0 分也说明,再强的模型也有搞不定的题。