Step-3.7-Flash-APEX-I-Mini

Step-3.7-Flash-APEX-I-Mini.gguf · Q3_K_M · 67.9 GB
🧠 MoE (11B active)📦 67.9 GB⚡ In 98 t/s · Out 13.9 t/s🎮 RTX 5070 Ti 16GB + 128GB RAM📅 2026-06-18
加权总分
79.5
TC×0.3 + BF×0.3 + HA×0.4
ToolCall-15
93
15/15 通过 · 100%
BugFind-15
78
12/15 通过 · 80%
HermesAgent-20
70
12/20 通过 · 60%

📋 全部测试结果

全部 (50)
ToolCall (15)
BugFind (15)
HermesAgent (20)
❌ 失败 (12)
#题目测试包难度结果得分sandbox耗时失败类型点评

🔍 错题分析

🌊 📊 模型评估总结

✅ 优势

  • ToolCall 场景表现突出(93分),在多工具协调和参数提取方面能力较强
  • 198B MoE 架构每 token 仅激活 11B,推理效率高于同参数量稠密模型
  • 跨语言代码调试(Python/JS/Rust/Go)全部通过,BugFind 真题修复能力扎实

⚠️ 不足

  • 思考模式不可关闭,简单问题也会产生大量 thinking tokens,降低响应速度
  • 推理速度仅 13.9 t/s,在所有测试模型中最慢,受 71.6GB 模型体积限制
  • Trap 题(BF-03/BF-10)全部失败,容易被用户话术误导修改正确代码
  • HermesAgent 场景中 HA-16 消息投递完全失败,HA-07 代码批量处理也未通过

📋 测试环境

  • 硬件 — RTX 5070 Ti 16GB + 128GB RAM,MoE模型部分专家层offload到CPU
  • 推理后端 — llama.cpp
  • 测试包 — ToolCall-15 / BugFind-15 / HermesAgent-20(共 50 题)
  • 模型下载 — HF: SC117

Step-3.7-Flash 就像一个985毕业的程序员——技术基础扎实得很,该会的都会,但情商有点问题。你说'帮我看看代码',他上来就改了,也不问'你确定有bug?'。ToolCall 教科书级,但 71.6GB 的体积让他跑起来慢吞吞的(13.9 t/s),像个穿着西装跑马拉松的大块头。