Qwen3.6-27B (无思考)

TC×0.3 + BF×0.3 + HA×0.4

🧠 Dense 27B📦 11.9 GB⚡ In 725 t/s · Out 60.6 t/s🎮 RTX 5070 Ti 16GB + 128GB RAM📅 2026-06-19

加权总分

87.4

TC×0.3 + BF×0.3 + HA×0.4

ToolCall-15

96.7

14/15 通过 · 93%

BugFind-15

84.2

12/15 通过 · 80%

HermesAgent-20

82.8

14/20 通过 · 70%

📋 全部测试结果

全部 (50)

ToolCall (15)

BugFind (15)

HermesAgent (20)

❌ 失败 (12)

#	题目	测试包	难度	结果	得分	sandbox	耗时	失败类型	点评

🔍 错题分析

🌊 📊 模型评估总结

✅ 优势

HermesAgent 82.8 分，通过了 HA-07（代码批量处理）——之前七个模型都失败
ToolCall 96.7 分接近满分，工具调用能力接近 Gemma-4 水平
27B 稠密模型 11.9GB 体积，IQ3_M 量化下仍保持良好性能

⚠️ 不足

Trap 题（BF-03/BF-10）全部失败，批判性思维能力不足
HA-06 后台进程管理失败（30分），HA-16 消息投递也失败
BugFind 84.2 分，低于 Gemma-4 无思考版（86）和 Qwen3.6-35B 思考版（88.7）

📋 测试环境

硬件 — RTX 5070 Ti 16GB + 128GB RAM，MoE模型部分专家层offload到CPU
推理后端 — llama.cpp
测试包 — ToolCall-15 / BugFind-15 / HermesAgent-20（共 50 题）
模型下载 — HF: SC117

Qwen3.6-27B 无思考版是一个'闷声干大事'的选手——通过了 HA-07（代码批量处理），之前七个模型都栽在这道题上。11.9GB 的 IQ3_M 量化体积全场最小，但 84.2 分的 BugFind 成绩说明 27B 参数量在深度调试上确实有点力不从心。