作者 | 董道力
邮箱 | dongdaoli@pingwest.com
作者 | 周一笑
邮箱|zhouyixiao@pingwest.com
一场关于全球AI开源领导权的牌局正在被重塑。就在世界刚刚习惯将中国顶级开源模型的崛起称为新的“DeepSeek时刻”时,随着近一个月Kimi K2与GLM-4.5的相继发布,一个由“两京两杭”四家公司组成的中国AI开源力量,正成为牌桌上最不容忽视的玩家。在北京,是智谱AI与月之暗面;在杭州,则是阿里巴巴通义实验室与深度求索。而老牌劲旅智谱此次发布的GLM-4.5,正是这个“四杰争雄”新时代中,一次关键的技术范式宣言。
这股被全球AI领军人物吴恩达(Andrew Ng)称为“拥有巨大发展势头”的力量,其核心正是这四家公司。吴恩达近期发文明确指出,尽管美国在顶尖闭源模型上保持优势,但在开源领域,中国的DeepSeek R1、Kimi K2、Qwen3和GLM-4.5等模型已经领先于美国最好的开源产品。
吴恩达的认为,在开源AI赛道,中国的“四杰”已经实现了对美国顶尖选手的反超。
这股力量的背后,出现了一个有趣的对比,当一些海外的头部模型日趋“Close”,中国的“OpenAI们”却在集体负责“Open”。这种开放姿态进一步降低了全球开发者的创新门槛,客观上加速了AI技术的普及与迭代 。
国际开源社区排前10名的模型,9个来自中国,另外1个也是华人团队
硅谷Benchmark风投公司合伙人Bill Gurley发文表示,中国开放AI模型所产生的组合效应非常强大,模型之间都可以互相改进,新模型的推出也更容易。一位AI创业者则评论称,这是一种软实力的新杠杆。这种复杂的情绪,也体现在OpenAI于6月底一份关于中国AI的研究中,其中便点名了智谱。
当然,随之而来的也是挑战。就在中国“开源四杰”集体发力之时,作为曾经的开源之光,Meta创始人扎克伯格近期发文宣布,Meta将不再开源所有“超级智能”AI模型,理由是“超级智能将带来新的安全担忧,我们需要谨慎选择开源什么”。
这标志着曾经高举开源大旗的Meta正式告别全面开源路线。回想去年,扎克伯格还将Llama系列开放模型视为对抗OpenAI的核心武器,声称“开源不会削弱我们的收入、可持续性或研究投资能力”。如今的转向,恰恰映射出当前全球AI发展的分化,硅谷巨头们在竞争压力下重新拥抱封闭模式时,中国的AI公司却在集体负责“Open”。
两种截然不同的战略选择,不仅让人思考在AI安全与创新开放之间究竟如何找到最优平衡,更重要的是,未来全球AI的话语权,会因为这种路线分化而发生怎样的变化?
在这种路线分化的背景下,回到智谱GLM-4.5的发布上,其在技术范式上的价值或许被低估了。官方称这是其首个采用“原生智能体”架构的基础模型,意味着推理、感知和执行等核心能力被直接构建在模型内部。这种设计的出现,本身就展现了“基座模型”下一步进化的可能性。为了验证它在真实场景下的表现,我们对其进行了五项深度测试。
为了验证GLM-4.5在真实场景下的表现,我们进行了五项深度测试。
1
实测:5大场景深度验证
测试1:一句话生成多功能网站
prompts:“创建一个在线番茄钟网站,包含倒计时、任务列表、白噪音功能,使用TailwindCSS和原生JS实现。”
我们先选择了一个难度不是太大的任务生成网页,但同时也留了一些坑,比如只提出了核心功能,如做一个番茄时钟功能,并没有指定番茄时钟计时是25分钟;提出要做任务列表功能,但没写清楚任务列表要能增加、删除、完成等。
从实际情况来看,GLM-4.5不但完成了我们指令中的核心功能,还补全了时间暂停、时间重置、音量调整等,可以说,GLM-4.5展现了对场景细节的深度理解。尤其是白噪音功能,GLM-4.5自动调用Web Audio API,并设计了雨声、海浪、森林、篝火4种选项。
而且在实际体验过程中,GLM-4.5从指令接收解析,到完整代码的输出实现,全程顺畅无阻,模型对功能的理解精准无误,完全无需二次沟通确认。页面交互体验更是自然流畅,静态页面设计与动态功能效果无缝衔接,真正做到了一键上线即可供用户正常使用,整个开发过程高效且优质。
项目地址:https://chat.z.ai/s/cea2111d-de9c-40e7-8835-ad4c0cbc4716
测试2:生成PPT
prompts:“为AI技术发布会制作PPT,主题‘GLM-4.5开源革命’,包含架构图、性能对比表、应用场景。”
第二个测试,我们选择了比较常见的生成PPT,PPT生成虽然简单,但其中会涉及数据来源、数据准确性、风格美观度等等要素。
GLM-4.5给出了满意的交付,在整体风格上采用了简约现代的风格,紫色作为背景,蓝色白色作为字体颜色,并且还搭配了半透明背景。在排版上,GLM-4.5并没有在纯文字的排版上“屎上雕花”,而是图文并茂,将内容进行有结构的排版。
比较令人惊喜的是,GLM-4.5的并不是简单的用关键词生成图片作为装饰,而是实打实生成有内容的图片,如解释什么是混合专家架构用到了架构图。而且GLM-4.5还擅长用“数据讲故事”,在对mox 进行性能对比时,GLM-4.5用了雷达图、柱状图等,而不是单纯的表格。
在功能性上,GLM-4.5支持用户修改精准文字,或者对整段文字用AI重写,以及一键切换版本。
项目地址:https://chat.z.ai/s/ff4c6c14-539a-43f2-a55e-a2e3d0344680
测试3:用代码做动画
prompts:“用代码写一个功能,小球碰到墙壁就会生成一个新的小球,新的小球采用新的颜色”
用代码做动画考验GLM-4.5的逻辑能力,在编程时候很容易出现错误。而GLM-4.5顺利完成了球类互动程序的开发。从 “碰撞检测” 到 “新球生成” 再到 “颜色切换”,每个核心逻辑都被精准捕捉,代码实现毫无偏差;交互细节更是处理得极为出色,新球生成的时机恰到好处,颜色差异等动态效果流畅自然,远超基础功能的实现水平。
而且在以往的测试中想要实现类似的效果,prompts要尽可能写的全面,但GLM-4.5只需要根据简单的描述,就能推理出完整的代码逻辑。
项目地址:https://chat.z.ai/s/080d15f3-cbdb-4406-916b-b16cb4548d3c
测试4:全栈开发制作GitHub仓库监控智能体
prompts:“创建Agent:监控GitHub仓库Star数,每日9点邮件推送增长趋势。”
这个项目的难点在于将用户的需求拆解用,如何调用工具,比如监控GitHub需要API接口,发送邮件需要部署SMPT等协议。GLM-4.5可以自主完成需求拆解 → 逻辑设计 → 代码生成 → 工具调用,全程丝滑流畅。
虽然在第一个版本中,项目一直无法添加指定的GitHub仓库,用户无需解释处理bug的方式,只需描述现象GLM-4.5就能解决。
从代码文件夹可以猜测,这是一个基于Next.js构建的全栈Web项目,采用 TypeScript提供强类型支持以提升代码质量和可维护性,使用Tailwind CSS 实现高效的样式开发。项目包含数据库交互功能,还具备WebSocket相关的实时交互能力,适合开发需要动态数据更新的场景。服务端逻辑可进行自定义处理,包括接口管理和业务逻辑实现。
项目地址:https://chat.z.ai/s/6a643274-761e-4bb0-bc9c-403830aafcbb
测试5:双人乒乓球游戏
prompts:“帮我生成一个双人桌面乒乓球游戏”
游戏一直是被用来测试大模型能力的常见任务,像贪吃蛇、打字游戏等,但上述游戏都是单人模式,我们来尝试做一个可以双人同时玩的“桌面乒乓球”。由于多了一个玩家,在交互逻辑和代码逻辑上难度增加,但GLM-4.5也完成了复杂的逻辑和双人操作规划。
项目地址:https://chat.z.ai/s/efef0a71-0144-4a08-b4db-49cf9182b49c
1
“开源四杰” vs 全球巨头
我们将视线从具体的模型参数和评测榜单上移开,会发现这场竞赛的真正意义,已不再是技术本身的较量,而是各方在用行动回答一个根本性问题:最顶尖的AI能力,究竟应该作为少数公司的私有财产被守护,还是作为一种数字时代的基础设施被分享?中国的"开源四杰"用一场前所未有的开放行动,给出了他们的答案。他们不仅是在发布模型产品,也是在从根本上改变整个产业的成本结构,使竞争的核心从“占有”技术,转向了如何运用技术。
这一分歧直接改变了全球开发者和企业的处境。最直接的影响是,他们获得了高性价比、可自主定制的替代方案,不必再被少数西方闭源巨头锁定。更深远地看,这也重塑了AI行业的商业逻辑。当最强大的AI能力不再是昂贵的独门秘籍,而是人人可用的“公开图纸”时,竞争的重心便不可逆转地从模型本身,转向了应用创新和生态系统的建设。最终的赢家尚难定论,但一个事实已经很清晰,因为这四家公司的存在,全球AI技术的商业版图和创新范式,都已被永久性地改写。
点个爱心,再走 吧