Step-3.7-Flash-APEX-I-Mini

Step-3.7-Flash-APEX-I-Mini.gguf · Q3_K_M · 67.9 GB

🧠 MoE (11B active)📦 67.9 GB⚡ In 98 t/s · Out 13.9 t/s🎮 RTX 5070 Ti 16GB + 128GB RAM📅 2026-06-18

加权总分

79.5

TC×0.3 + BF×0.3 + HA×0.4

ToolCall-15

93

15/15 通过 · 100%

BugFind-15

78

12/15 通过 · 80%

HermesAgent-20

70

12/20 通过 · 60%

📋 全部测试结果

全部 (50)

ToolCall (15)

BugFind (15)

HermesAgent (20)

❌ 失败 (12)

#	题目	测试包	难度	结果	得分	sandbox	耗时	失败类型	点评

🔍 错题分析

🌊 📊 模型评估总结

✅ 优势

ToolCall 场景表现突出（93分），在多工具协调和参数提取方面能力较强
198B MoE 架构每 token 仅激活 11B，推理效率高于同参数量稠密模型
跨语言代码调试（Python/JS/Rust/Go）全部通过，BugFind 真题修复能力扎实

⚠️ 不足

思考模式不可关闭，简单问题也会产生大量 thinking tokens，降低响应速度
推理速度仅 13.9 t/s，在所有测试模型中最慢，受 71.6GB 模型体积限制
Trap 题（BF-03/BF-10）全部失败，容易被用户话术误导修改正确代码
HermesAgent 场景中 HA-16 消息投递完全失败，HA-07 代码批量处理也未通过

📋 测试环境

硬件 — RTX 5070 Ti 16GB + 128GB RAM，MoE模型部分专家层offload到CPU
推理后端 — llama.cpp
测试包 — ToolCall-15 / BugFind-15 / HermesAgent-20（共 50 题）
模型下载 — HF: SC117

Step-3.7-Flash 就像一个985毕业的程序员——技术基础扎实得很，该会的都会，但情商有点问题。你说'帮我看看代码'，他上来就改了，也不问'你确定有bug？'。ToolCall 教科书级，但 71.6GB 的体积让他跑起来慢吞吞的（13.9 t/s），像个穿着西装跑马拉松的大块头。