Qwen3.6-35B (思考)

Qwen3.6-35B-A3B-uncensored-heretic-APEX-I-Compact.gguf · Q4_K_M · 16.1 GB
🧠 MoE (3B active)📦 16.1 GB⚡ In 766 t/s · Out 62.6 t/s🎮 RTX 5070 Ti 16GB + 128GB RAM📅 2026-06-19
加权总分
87.2
TC×0.3 + BF×0.3 + HA×0.4
ToolCall-15
100
15/15 通过 · 100% 🏆
BugFind-15
88.7
12/15 通过 · 80%
HermesAgent-20
76.5
12/20 通过 · 60%

📋 全部测试结果

全部 (50)
ToolCall (15)
BugFind (15)
HermesAgent (20)
❌ 失败 (12)
#题目测试包难度结果得分sandbox耗时失败类型点评

🔍 错题分析

🌊 📊 模型评估总结

✅ 优势

  • ToolCall 满分 100/100,15 题全部通过,工具调用能力全场最强之一
  • BugFind 88.7 分,思考模式让代码调试能力显著提升(无思考版 80.7)
  • BF-03 Trap 题历史性通过——之前大部分模型都被骗

⚠️ 不足

  • 推理速度 62.6 t/s,思考模式会产生额外 thinking tokens 降低实际吞吐
  • HermesAgent 得分 76.5,低于无思考版的 Gemma-4(84.8)
  • HA-14 Cron 更新反而比无思考版差(100→70),思考模式并非总能提升表现

📋 测试环境

  • 硬件 — RTX 5070 Ti 16GB + 128GB RAM,MoE模型部分专家层offload到CPU
  • 推理后端 — llama.cpp
  • 测试包 — ToolCall-15 / BugFind-15 / HermesAgent-20(共 50 题)
  • 模型下载 — HF: SC117

Qwen3.6-35B 思考版就像一个突然开窍的学霸——ToolCall 直接满分 100,BugFind 也从 80.7 飙到 88.7。但思考模式不是万能药,HA-14 反而比无思考版差了(100→70),说明'想多了'有时候反而会犯迷糊。