Qwen3.6-35B (思考)

Qwen3.6-35B-A3B-uncensored-heretic-APEX-I-Compact.gguf · Q4_K_M · 16.1 GB

🧠 MoE (3B active)📦 16.1 GB⚡ In 766 t/s · Out 62.6 t/s🎮 RTX 5070 Ti 16GB + 128GB RAM📅 2026-06-19

加权总分

87.2

TC×0.3 + BF×0.3 + HA×0.4

ToolCall-15

100

15/15 通过 · 100% 🏆

BugFind-15

88.7

12/15 通过 · 80%

HermesAgent-20

76.5

12/20 通过 · 60%

📋 全部测试结果

全部 (50)

ToolCall (15)

BugFind (15)

HermesAgent (20)

❌ 失败 (12)

#	题目	测试包	难度	结果	得分	sandbox	耗时	失败类型	点评

🔍 错题分析

🌊 📊 模型评估总结

✅ 优势

ToolCall 满分 100/100，15 题全部通过，工具调用能力全场最强之一
BugFind 88.7 分，思考模式让代码调试能力显著提升（无思考版 80.7）
BF-03 Trap 题历史性通过——之前大部分模型都被骗

⚠️ 不足

推理速度 62.6 t/s，思考模式会产生额外 thinking tokens 降低实际吞吐
HermesAgent 得分 76.5，低于无思考版的 Gemma-4（84.8）
HA-14 Cron 更新反而比无思考版差（100→70），思考模式并非总能提升表现

📋 测试环境

硬件 — RTX 5070 Ti 16GB + 128GB RAM，MoE模型部分专家层offload到CPU
推理后端 — llama.cpp
测试包 — ToolCall-15 / BugFind-15 / HermesAgent-20（共 50 题）
模型下载 — HF: SC117

Qwen3.6-35B 思考版就像一个突然开窍的学霸——ToolCall 直接满分 100，BugFind 也从 80.7 飙到 88.7。但思考模式不是万能药，HA-14 反而比无思考版差了（100→70），说明'想多了'有时候反而会犯迷糊。