Qwen3.6-27B (无思考)

TC×0.3 + BF×0.3 + HA×0.4
🧠 Dense 27B📦 11.9 GB⚡ In 725 t/s · Out 60.6 t/s🎮 RTX 5070 Ti 16GB + 128GB RAM📅 2026-06-19
加权总分
87.4
TC×0.3 + BF×0.3 + HA×0.4
ToolCall-15
96.7
14/15 通过 · 93%
BugFind-15
84.2
12/15 通过 · 80%
HermesAgent-20
82.8
14/20 通过 · 70%

📋 全部测试结果

全部 (50)
ToolCall (15)
BugFind (15)
HermesAgent (20)
❌ 失败 (12)
#题目测试包难度结果得分sandbox耗时失败类型点评

🔍 错题分析

🌊 📊 模型评估总结

✅ 优势

  • HermesAgent 82.8 分,通过了 HA-07(代码批量处理)——之前七个模型都失败
  • ToolCall 96.7 分接近满分,工具调用能力接近 Gemma-4 水平
  • 27B 稠密模型 11.9GB 体积,IQ3_M 量化下仍保持良好性能

⚠️ 不足

  • Trap 题(BF-03/BF-10)全部失败,批判性思维能力不足
  • HA-06 后台进程管理失败(30分),HA-16 消息投递也失败
  • BugFind 84.2 分,低于 Gemma-4 无思考版(86)和 Qwen3.6-35B 思考版(88.7)

📋 测试环境

  • 硬件 — RTX 5070 Ti 16GB + 128GB RAM,MoE模型部分专家层offload到CPU
  • 推理后端 — llama.cpp
  • 测试包 — ToolCall-15 / BugFind-15 / HermesAgent-20(共 50 题)
  • 模型下载 — HF: SC117

Qwen3.6-27B 无思考版是一个'闷声干大事'的选手——通过了 HA-07(代码批量处理),之前七个模型都栽在这道题上。11.9GB 的 IQ3_M 量化体积全场最小,但 84.2 分的 BugFind 成绩说明 27B 参数量在深度调试上确实有点力不从心。