据热心网友报道,今天凌晨,智谱AI正式宣布开源其最新“混合思考”模型——GLM-4.7-Flash。作为30B规格中的最强竞争者,该模型在保持轻量化部署优势的同时,凭借卓越的推理与编码能力,成功登顶同类规格模型的性能榜首。

qq20260120-085557.png

性能领跑:30B级别的“全能王者

GLM-4.7-Flash 采用了 30B-A3B MoE(混合专家)架构。这意味着其总参数量为300亿,但实际处理任务时仅需激活约30亿精锐参数。这种设计使其在资源占用与处理能力之间找到了完美平衡点。

在多项严苛的基准测试中,GLM-4.7-Flash 的表现令人瞩目,全面超越了阿里的 Qwen3-30B-A3B-Thinking-2507 以及 OpenAI 的 GPT-OSS-20B:

  • 软件工程(SWE-bench Verified): 达到 59.2分,展现出顶尖的代码修复能力。

  • 数学与推理: AIME25斩获 91.6分,GPQA(专家级问答)达 75.2分

  • 工具协作: τ²-Bench 达到 79.5分,BrowseComp 为 42.8分,在智能体(Agent)场景下极具竞争力。

开发者友好:灵活的本地化部署

该模型主打轻量化与实用性,特别适合本地或私有云环境下的智能体应用。为确保性能稳定释放,GLM-4.7-Flash 已获得主流推理框架的支持:

  • vLLM 与 SGLang: 均已在 main 分支提供支持。使用 vLLM 时,开发者可通过 tensor-parallel-sizespeculative-config 等参数优化并发与解码速度;SGLang 则支持使用 EAGLE 算法进一步提升推理效率。

  • Hugging Face: 支持直接通过 transformers 库调用,降低了快速实验与集成的门槛。

市场反馈:不牺牲轻便的性能跃迁

行业社区对该版本的发布反响热烈。网友普遍认为,GLM-4.7-Flash 在不增加硬件负担的前提下,显著提升了实际任务中的“体感速度”。一位开发者评价道:“它在编码和工具调用上的表现让本地AI助手变得真正好用,这种性能与效率的平衡正是我们需要的。”

开源地址:https://huggingface.co/zai-org/GLM-4.7-Flash

点赞(4)

评论列表共有 0 条评论

立即
投稿
返回
顶部