Nex-N2-Mini (思考)

Huihui-Nex-N2-mini-abliterated-APEX-I-Compact.gguf · Q4_K_M · 15.4 GB

🧠 MoE (3B active)📦 15.4 GB⚡ In 321 t/s · Out 62.5 t/s🎮 RTX 5070 Ti 16GB + 128GB RAM📅 2026-06-19

加权总分

75.7

TC×0.3 + BF×0.3 + HA×0.4

ToolCall-15

90

13/15 通过 · 87%

BugFind-15

68.7

6/15 通过 · 40%

HermesAgent-20

71

11/20 通过 · 55%

📋 全部测试结果

全部 (50)

ToolCall (15)

BugFind (15)

HermesAgent (20)

❌ 失败 (12)

#	题目	测试包	难度	结果	得分	sandbox	耗时	失败类型	点评

🔍 错题分析

🌊 📊 模型评估总结

✅ 优势

推理速度 62.5 t/s，在 MoE 模型中表现良好，适合需要快速响应的场景
HermesAgent 基础能力扎实（71分），记忆管理和审批守卫全满分
ToolCall 表现不错（90分），仅次于 Step-3.7 和 Qwen3.6

⚠️ 不足

BugFind 分数全场最低（68.7分），深度代码调试能力不足
Trap 题（BF-03/BF-10）全部失败，批判性思维能力有限
HermesAgent 中 HA-10 技能发现失败（20分），HA-16 消息投递也失败

📋 测试环境

硬件 — RTX 5070 Ti 16GB + 128GB RAM，MoE模型部分专家层offload到CPU
推理后端 — llama.cpp
测试包 — ToolCall-15 / BugFind-15 / HermesAgent-20（共 50 题）
模型下载 — HF: SC117

Nex-N2-Mini 就像一个手速很快的实习生——干活飞快（62.5 t/s），但经常不按格式交作业。BugFind 9 道题修对了 9 道，但格式全错导致分数腰斩。速度是它最大的优势，但遇到需要精确格式或复杂推理的场景，还是得靠大哥。