新智元报道
编辑:定慧 犀牛
智谱新一代旗舰「融合大模型」GLM-4.5,集成推理、代码与智能体能力,实现原生智能体模式。该模型具备极高性价比与生成速度,支持全栈Agent开发、网页创作、PPT生成等多功能,实际表现惊艳。
GPT-5还没影子,但国产这边一个「融合大模型」已经炸出来了!
智谱「悄悄的」发布了最新的旗舰版本模型GLM-4.5,这是一个全新的「融合大模型」,主打Agent Foundation Model。
相较于其他模型竞相「卷参数、刷榜单」,GLM-4.5这次选择了不一样的路线——不跟风,不内卷,而是直接「狙击GPT-5」!
GLM-4.5融合ARC(Agentic/Reasoning/Coding)能力,将推理、编程与Agent能力原生整合,走向更通用、更高效的AI形态。
体验地址:https://chat.z.ai/
都说GPT-5也要融合o系列、GPT系列和Agent能力,但是奥特曼一直跳票,没想到被我们「领先了」。
值得一提的是,OpenAI还在6月25日公开叫板智谱,在一篇名为《Chinese Progress at the Front》的文章中,OpenAI将智谱(而不是DeepSeeek)列入全球竞争对手,出乎所有人意料。
这也说明智谱已经可以威胁到OpenAI的发展。
既然已经公开叫板,智谱不再低调了,这个最新模型就要干翻o3!
最近,有人爆料GPT-5在WebDev Arena上有个匿名为「龙虾」的测试版。说是测试后效果惊人,用同样的提示词左边是GPT-5生成的页面,右边是Grok 4版本,看起来确实GPT-5生成的页面更「炫酷」。
但是用GLM-4.5实测后,我们发现这个「融合模型」强得离谱,同样的提示词,随手「二连抽」的效果都是SSR级别!
这个效果还是可以交互的页面,画面表现能力和复杂程度已经远超Grok 4,和GPT-5都不相上下。
提示词:Create a stunning, interactive animation of a neural network or brain-like graph structure—use artistic colors, smooth transitions, and beautiful visuals. The page should feel alive, immersive, and impressive, with no buttons—just scrolling or continuous animation. Make it breathtaking.
在GLM-4.5上我们做了各种测试,然后就一发不可收拾了,这两天已经玩嗨了!
GLM-4.5不仅能整活做网站,还能一键生成PPT,还新增「Full-Stack全栈功能」可以实现在线Agent,而且完成任务的源代码还能直接下载!
对于开发者来说,仅需两行代码就可以将GLM-4.5丝滑接入到现在最火的代码工具Claude Code中。
从此可以放弃又贵又不稳定的Claude api,体验到性能强劲、很便宜的GLM-4.5。
而且!智谱这次发布GLM-4.5下足了本钱,「智谱疯狂星期一,V我50,即可包月无限量调用API」!先到先得!
它每次生成的效果都远超预期!
而且非常的快,能明显感受到任务吐「token」的速度遥遥领先。
尤其是这个模型给人的感觉就好像是打通了任督二脉,一下子融合了「智能体、推理和代码能力」的所有能力。
就好像只用一个模型,就同时拥有了Cladue Code+Manus+Reasoning Model的所有能力。
再也不用像OpenAI的ChatGPT,每次还要选择使用哪个模式。
这才像未来AI该有的样子,AI就应该像钢铁侠「贾维斯」一样,只需Chat!
使用GLM-4.5最直接的感受就是,太强了!
在模拟飞行器从地球飞往火星的过程,完全按照太空力学中的「霍曼转移轨道」(Hohmann transfer orbit)来构建。
要知道这个Prompt当时很多网友实测Gemini 2.5、Claude和Grok时都没有实现。
这个页面用到了模型最新的Full-Stack全栈能力,完全就是一个在线Agent,这才是真正的Vibe Coding!
为综合衡量模型的通用能力,智谱选择了最具有代表性的12个评测基准,包括MMLU Pro、AIME24、MATH 500、SciCode、GPQA、HLE、LiveCodeBench、SWE-Bench、Terminal-bench、TAU-Bench、BFCL v3和BrowseComp。
综合平均分,GLM-4.5取得了全球模型第三、国产模型第一,开源模型第一!
融合「更多」能力,实现最佳性能
GLM-4.5为何选择将「融合」作为主攻的方向?
所有大模型的目标都是为了实现AGI,但是关于如何定义AGI,学界还没有达成统一。
从第一性原理出发,一个模型能够在不影响原有能力的情况下,融合更多的通用智能能力一定是一个方向。
GLM-4.5就是对此理念的首次完整呈现。
GLM-4.5首次在单个模型中实现了推理、代码、Agentic等多能力原生融合:
GLM-4.5在Agentic Coding盲测中实现国内最佳
GLM-4.5在推理、代码、智能体综合能力方面(平均分)刷新开源SOTA
GLM-4.5采用混合专家(MoE)架构,包括
GLM-4.5:总参数量355B、激活参数量32B
GLM-4.5-Air:总参数量106B、激活参数量12B
GLM-4.5支持thinking(推理增强)与non-thinking(通用生成)两种工作模式,兼顾推理能力与通用响应效率。
GLM-4.5的参数量为DeepSeek-R1的1/2、Kimi-K2的1/3,但在多项标准基准测试中表现得更为出色。
这得益于GLM模型更高的参数效率。
GLM-4.5-Air以106B总参数/12B激活参数实现了重要突破,在Artificial Analysis等推理基准上超越Gemini 2.5 Flash、Qwen3-235B、Claude 4 Opus等大模型,性能位列国产前三。
在SWE-Bench Verified等图谱中,GLM-4.5系列位于性能/参数比帕累托前沿,这表明在相同规模下,GLM-4.5系列实现了最佳性能。
速度和性价比,国内SOTA
GLM-4.5系列也在调用成本和生成效率上实现突破:API调用价格低至输入0.8元/百万tokens,输出2元/百万tokens,远低于主流模型定价。
同时,高速版本实测生成速度超过100tokens/秒,支持低延迟、高并发的实际部署需求。
不过现在的新模型评测跑分也就看个热闹,真正还得要实测见真章!
就拿上面「模拟飞行器从地球飞往火星,并且完全遵循现实世界物理规律」来测试,大部分只写前端代码的模型几乎都很难一次搞定。
我们先让GLM-4.5先不要考虑真实物理参数,而是演示完整的运动路径。
GLM-4.5一下子就理解了!
GLM-4.5画出了飞行器飞往火星的演示过程,并且还提供了两种视角。
一种是全局视角。
另一种是「第一视角」,你可以跟随飞行器从地球飞往火星。
GLM-4.5还贴心的在飞行器后面「画了」一个喷火的尾焰,不要太绝!
但是,这依然只是展示,如果想要让飞行器完全按照真实飞行来构建呢?
这里就需要选择Full-Stack!
通过Full-Stack,GLM-4.5就能构建一个完整的应用。
同样的提示词,使用全栈功能后,最终的效果要比单纯的写一段前端网页代码要Solid太多。
这个比例基本也符合我们对于广袤宇宙的认识,一艘飞行器孤独地前往火星。
选中全栈功能,你甚至可以获得这个项目所有源代码!这不就是相当于一个Cursor了吗?!
关键在于,这些都是免费开源的!
丝滑接入Claude Code
GLM-4.5的代码能力如此之强,你还可以通过一个兼容Anthropic API的端点将其与Claude Code集成。
只需要两行代码,就能用GLM-4.5来驱动你的Claude Code了。
方法也十分简单。
首先,申请一个智谱开放平台API Key。
地址:https://open.bigmodel.cn/usercenter/proj-mgmt/apikeys
安装Claude Code后,运行以下两行代码即可。
exportANTHROPIC_BASE_URL=https://open.bigmodel.cn/api/anthropic exportANTHROPIC_AUTH_TOKEN="your bigmodel API keys"
看到这个界面后,就可以使用啦。
我们用最常见的贪吃蛇游戏来测试一下以GLM-4.5为核心的Claude Code效果如何。
中间经过一次对话调整后,GLM-4.5成功生成一个相当炸裂的、完全符合提示要求的游戏!
游戏不仅画面精美、计分准确,得分后还会有一个十分自然的动画效果,非常惊艳。
AI PPT:打工人的最佳「伴侣」
此次GLM-4.5还有一个功能也惊艳到了我们。
就是这个AI PPT(AI Sliders)功能!
实际测试后,真的和别的Agent制作PPT的感受完全不同!
下面这个是默认的例子,你可以看到整个PPT的配色和风格并不是像其他Agent的单一母版背景。
并且制作好的PPT也可以一键发布,分享给任何人。
PPT生成后可一键发布
在测试中,只上传了一张图片,就能让GLM-4.5「看图说话」,比如这张很抽象的把「奥特曼+龙虾+GPT-5」放一起封面。
最终生成PPT演示
GLM-4.5能够准确的把握到图片中信息,并且还调用了搜索引擎完善了内容。
不论是「整活」测试代码能力,还是「正经」的完成PPT制作,GLM-4.5都远超预期。
使用下来最大的感受,「如丝般顺滑」,每一个任务都几乎没有卡壳,也不用多次抽卡,几乎每个任务都能有效完成。
并且由于GLM-4.5在模型中融合ARC能力(Agentic / Reasoning / Coding),几乎任何问题都可以在「当前聊天框」里解决。
比如我可以让GLM-4.5帮我临时制作一个生辰八字计算器。
在ARC和Full-Stack能力的加持下,日常需求直接就可以转化为产品,不仅自己可用,而且可以分享出去。
大模型的「军备竞赛」发展至今,光是听说的模型已经两只手都数不过来了,ChatGPT、Gemini、Claude、Qwen、DeepSeek、GLM、Kimi…
OpenAI的ChatGPT更是给模型起了多个名字:GPT-4.1、GPT-4.5、o1-pro、o3、o3-pro、o4-mini。。。简直让人无从下手。
但是很多模型都忘记了AI原本是要「服务于人」的初衷,变成了刷榜比赛,比如Meta的Llama 4的滑铁卢就因为刷榜丑闻而起。
这次,智谱GLM4.5和OpenAI GPT-5「心照不宣」的都决定采用「融合大模型」路线。
放弃刷榜和无聊的命名游戏,回归到真正追求AGI的初心。
就像智谱所说,真实体验永远比刷榜更重要。
目前,GLM-4.5的API已上线开放平台BigModel.cn,可以一键兼容Claude Code框架。 也可以上智谱清言(chatglm.cn)和Z.ai免费体验满血版。
国内用户:
https://docs.bigmodel.cn/cn/guide/develop/claude
海外用户:
https://docs.z.ai/scenario-example/develop-tools/claude
体验地址:
https://chat.z.ai/
https://chatglm.cn
Github仓库:
https://github.com/zai-org/GLM-4.5
模型仓库:
HuggingFace:
https://huggingface.co/collections/zai-org/glm-45-687c621d34bda8c9e4bf503b
ModelScope:
https://modelscope.cn/collections/GLM-45-b8693e2a08984f
同时,智谱还公布了实测的52道题目及Agent轨迹,供业界验证。
Agent轨迹:
https://huggingface.co/datasets/zai-org/CC-Bench-trajectories
参考资料:
https://chatglm.cn/
https://chat.z.ai/