Nex-N2-Mini (思考)

Huihui-Nex-N2-mini-abliterated-APEX-I-Compact.gguf · Q4_K_M · 15.4 GB
🧠 MoE (3B active)📦 15.4 GB⚡ In 321 t/s · Out 62.5 t/s🎮 RTX 5070 Ti 16GB + 128GB RAM📅 2026-06-19
加权总分
75.7
TC×0.3 + BF×0.3 + HA×0.4
ToolCall-15
90
13/15 通过 · 87%
BugFind-15
68.7
6/15 通过 · 40%
HermesAgent-20
71
11/20 通过 · 55%

📋 全部测试结果

全部 (50)
ToolCall (15)
BugFind (15)
HermesAgent (20)
❌ 失败 (12)
#题目测试包难度结果得分sandbox耗时失败类型点评

🔍 错题分析

🌊 📊 模型评估总结

✅ 优势

  • 推理速度 62.5 t/s,在 MoE 模型中表现良好,适合需要快速响应的场景
  • HermesAgent 基础能力扎实(71分),记忆管理和审批守卫全满分
  • ToolCall 表现不错(90分),仅次于 Step-3.7 和 Qwen3.6

⚠️ 不足

  • BugFind 分数全场最低(68.7分),深度代码调试能力不足
  • Trap 题(BF-03/BF-10)全部失败,批判性思维能力有限
  • HermesAgent 中 HA-10 技能发现失败(20分),HA-16 消息投递也失败

📋 测试环境

  • 硬件 — RTX 5070 Ti 16GB + 128GB RAM,MoE模型部分专家层offload到CPU
  • 推理后端 — llama.cpp
  • 测试包 — ToolCall-15 / BugFind-15 / HermesAgent-20(共 50 题)
  • 模型下载 — HF: SC117

Nex-N2-Mini 就像一个手速很快的实习生——干活飞快(62.5 t/s),但经常不按格式交作业。BugFind 9 道题修对了 9 道,但格式全错导致分数腰斩。速度是它最大的优势,但遇到需要精确格式或复杂推理的场景,还是得靠大哥。