Qwen3.6-27B (思考)

Qwen3.6-27B-uncensored-heretic-v2-Native-MTP-Preserved.i1-IQ3_M.gguf · IQ3_M · 11.9 GB

🧠 Dense 27B📦 11.9 GB⚡ In 725 t/s · Out 60.6 t/s🎮 RTX 5070 Ti 16GB + 128GB RAM📅 2026-06-19

加权总分

91.9

TC×0.3 + BF×0.3 + HA×0.4

ToolCall-15

100

15/15 通过 · 100% 🏆

BugFind-15

93.3

14/15 通过 · 93%

HermesAgent-20

84.8

14/20 通过 · 70%

🌊 📊 模型评估总结

✅ 优势

加权总分 91.9 全场第一，BugFind 93.3 + HermesAgent 84.8 均为高水平
ToolCall 满分 100/100，BF-03 Trap 题通过——思考模式显著提升了批判性思维
IQ3_M 量化仅 11.9GB，体积在高分模型中最小，资源效率极高

⚠️ 不足

BF-10 Trap 题仍然失败——九个模型中仅 Gemma-4 思考版通过此题
HA-16 消息投递 0 分，HA-14 Cron 更新也失败（无思考版反而通过）
思考模式有副作用：HA-14 从无思考版的 100 分退步到 70 分

📋 测试环境

硬件 — RTX 5070 Ti 16GB + 128GB RAM，MoE模型部分专家层offload到CPU
推理后端 — llama.cpp
测试包 — ToolCall-15 / BugFind-15 / HermesAgent-20（共 50 题）
模型下载 — HF: SC117

Qwen3.6-27B 思考版是全场的'终极答案'——91.9 分第一，ToolCall 满分，BugFind 93.3，而且只有 11.9GB 体积。IQ3_M 极低精度量化 + 思考模式的组合证明了一个道理：量化精度不是越高越好，思考模式的推理能力可以弥补量化损失。但 HA-16 消息投递 0 分也说明，再强的模型也有搞不定的题。