Gemma-4 思考版是本次测试的'黑马之王'——BugFind 96 分全场最高,BF-10 Trap 题九个模型里唯一通过的。HermesAgent 87 分也是全场最高。但 ToolCall 反而比无思考版低了(96.7→93.3),说明'想太多'有时候会干扰简单的工具调用流程。