当前位置: 首页 » 资讯 » 科技头条 » 正文

新“前端之父”来了!智谱深夜放出编程炸弹,开源第一、国产第一

IP属地 中国·北京 智东西 时间:2025-12-23 14:32:45


智东西
作者 江宇
编辑 漠影

智东西12月23日报道,今日,智谱正式上线并开源了新版本GLM-4.7跑分直指开源第一梯队

GLM-4.7在SWE-bench、Terminal Bench 2.0、τ²-Bench、HLE等十余项智能体与推理评测中,全面对齐甚至部分超越GPT-5.1与Claude Sonnet 4.5。


而在订阅门槛上,GLM-4.7堪比“价格屠夫”:每月最低20元即可使用Claude Pro三倍用量,主打一个“用得起”。

从技术上线时间点来看,这也是智谱在IPO前夜放出的关键一招。那么究竟效果如何?我们也第一时间在Z.ai上进行了实测。

GitHub:https://github.com/zai-org/GLM-4.5

Hugging Face:huggingface.co/zai-org/GLM-4.7

魔搭社区:https://modelscope.cn/models/ZhipuAI/GLM-4.7

一、从“写代码”到“管任务”,技术指标全线飘红

根据Code Arena面向全球开发者的专业编码盲测榜单,GLM-4.7在Web开发方向排名第六,成为目前全球排名最高的开源模型,超过GPT-5.2与Claude Sonnet 4.5,位列国产模型第一


从更细致的基准测试来看,GLM-4.7最明显的升级集中在三个方面:代码、工具调用和推理能力

代码能力上,它在SWE-bench‑Verified拿到73.8%,LiveCodeBench‑V6达到84.9%,整体水平已经对齐Claude Sonnet 4.5,在开源模型中处于第一梯队

更偏复杂推理的任务中,HLE(“人类最后的考试”)成绩提升尤为明显,工具辅助条件下达到42.8%,相比GLM‑4.6提升超过12个百分点,也超过了GPT‑5.1 High

工具调用能力同样是这一代的重点方向,在τ²‑Bench中,GLM‑4.7拿到87.4%的成绩,BrowseComp在开启上下文管理后提升至67.5%,在多轮网页任务和交互式工具调用场景中表现稳定,基本坐实了其“智能体向”模型的定位。


与这些分数变化对应的,是其内部思考机制的调整。

GLM‑4.7在此前“交错思考”的基础上,引入了保留式思考与轮级思考控制:模型会在每次生成和工具调用前先进行推理,并在多轮任务中自动保留已有的思考结果,而不是反复从零开始推导。

同时,开发者也可以按轮次决定是否启用推理过程,在简单请求中降低时延,在复杂任务中换取稳定性。

这种设计更强调长任务执行中的一致性和可控性,也正是这些机制变化,支撑了它在代码智能体、终端任务和工具协同类基准上的整体跃升。

此外,模型还针对前端美学、长文本稳定性、网页生成结构等细节做了优化。

二、100个真实任务胜率更高,多模态技能调度能力打通开发闭环

为了验证GLM‑4.7在实际开发任务中的表现,智谱对比测试了100个真实编程任务,覆盖前端开发、后端逻辑以及指令遵循等三个核心方向。结果显示,在前端任务中,GLM‑4.7相较4.6版本胜率提升至64.6%,在指令遵循场景中也达到58.3%。在最具工程复杂度的后端方向,其胜率也稳定在46.7%。


除了单点生成能力,GLM‑4.7还进一步强化了多技能联动能力。GLM-4.7已在Z.ai上线了全栈技能环境,它已接入全新的Skills模块,支持调用ASR语音识别、TTS语音合成、GLM‑4.6V视觉模型等多个模块进行统一调度。

在多模态任务中,它既能规划路径、又能执行动作,工具之间的“调度逻辑”打通了。

三、实测:从3D圣诞树到Switch小游戏,前端效果直追Gemini 3

本次我们通过Z.ai平台测试了GLM-4.7的三类互动任务,来看看其在3D控制、UI生成与前端代码实现上的表现。

场景1:3D圣诞树炸开成照片墙,用手势就能控制收放旋转

这是本次测试中最具沉浸感的交互体验之一。GLM-4.7输出了一整段可直接运行的HTML代码,包含完整的3D场景构建、粒子交互、手势识别与UI反馈逻辑。

初始画面是一棵由5000多个粒子构成的立体圣诞树,顶部悬着一颗带有辉光效果的星星。


移动鼠标时,粒子会自然产生斥力波纹,整体呈现出流动的视觉响应。

进入交互环节后,系统会调用摄像头,识别用户的手势动作。当用户张开手掌,整棵圣诞树会突然炸开,转变为一圈悬浮在空中的照片墙,照片以拍立得的形式环绕排布。如果继续左右移动手掌,照片墙会跟随旋转。而当再次握拳时,所有元素会收拢归位,照片墙重新收缩为圣诞树形态,形成完整的一轮开合动画。


此外,GLM-4.7还在代码中集成了性能优化机制,例如使用InstancedMesh来渲染大量粒子,整个页面在不依赖构建工具的前提下依然保持了高帧率与良好流畅度。

场景2:复刻iOS主界面,图标齐了,界面能点

我们输入提示词“1:1复刻iOS系统”,GLM-4.7就做出了一个模仿iOS的主页面:Safari、Siri、健康、钱包等图标均可点击。


日历、天气、计算器等功能页可以进入交互,计算器还能进行基础运算输入。虽然和最新款iOS比起来还有细节差距,但整体体验是流畅的、能用的,图标风格和颜色搭配也有基本审美。

场景3:Switch格斗小游戏,手柄界面+按键联动

我们还测试了一个双人格斗游戏任务,GLM-4.7生成了一套完整的双人对战界面,整体风格高度还原Switch主机的Joy-Con手柄配色和布局:左侧是蓝色手柄,右侧是红色手柄,中间是游戏主屏幕。

进入游戏后,画面中出现了两个火柴人角色,一个为蓝色玩家,一个为红色敌人,头顶有动态血条显示。UI部分在左上角呈现当前波次与敌人数量等信息。在操作体验上,左手玩家可以通过键盘A/D控制移动,J攻击,K跳跃,右手玩家则使用U/I/O三键分别释放技能。虽然尚未实现打击判定与技能特效,但整体界面结构、角色逻辑和按键响应已经非常完整,具备真实游戏的框架感。

整个游戏内置了节奏感很强的格斗BGM。可见,GLM-4.7在UI构建、键盘监听、动画驱动等前端关键模块中还是具备一定的可用性与稳定性。

结语:国产SOTA模型正值猛进阶段

从三大基准维度到真实任务测试,GLM-4.7已跻身全球开源模型第一梯队,成为国产模型在Agent工具线上的关键突破点。

无论是开源代码在全球社区中已被下载超6000万次,还是付费API使用量长期居于OpenRouter全球前十,都说明它已逐步进入开发者的实际工具列表。

而在GLM-4.7上线的节点背后,是智谱即将登陆港交所的背景,也是国产大模型企业从科研模型、开源生态向“真实使用”与“市场验证”过渡的一个缩影。在这个新阶段,开源国产模型正从“对标国际”迈向“领跑、实用”,而GLM-4.7就是这个进程中的一个关键代表。


免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新