当前位置: 首页 » 资讯 » 科技头条 » 正文

未来领跑者|面壁智能:以小博大,清华园走出端侧AI“面壁者”

IP属地 中国·北京 贝壳财经 时间:2025-11-14 22:12:10

专注高效、拥抱端侧、以小博大,这群AI领域的“面壁者”正让智能模型在手机、汽车等终端设备上顺畅运行。

全球首个达到GPT-4o水平的端侧多模态大模型、“密度定律”的提出者与践行者、首个“被美国人抄袭”的国产模型——这是成立三年的北京面壁智能科技有限责任公司(以下简称“面壁智能”)在AI领域崭露头角的几个剪影。

面壁的核心团队来自清华,其联合创始人、首席科学家刘知远是国内最早研究自然语言处理的科学家之一。与其他“炼大模型”的公司不同,面壁智能选择了一条与众不同的端侧AI路线,推出了面壁小钢炮MiniCPM系列端侧模型。从2.4B参数能力超越Mistral 7B模型打响口碑开始,面壁智能陆续形成基座、多模态、全模态的MiniCPM端侧模型完整谱系。

面壁智能的故事,不仅是一个年轻AI技术团队的成长史,更是中国在大模型浪潮中从追随者向创新者转变的缩影。与科幻小说中试图以一己之力改变未来的“面壁者”一样,这家公司正以高效为核心,试图打破AI模型对算力资源的过度依赖,让智能在终端设备上“飞入寻常百姓家”。

“走先人一步的路,打以少胜多的仗”



面壁智能办公室的墙上,写着“走先人一步的路,打以少胜多的仗”。 新京报贝壳财经记者罗亦丹/摄

“走先人一步的路,打以少胜多的仗。”当新京报贝壳财经记者走进位于清华科技园的面壁智能办公室,首先映入眼帘的就是墙上的这样一句话,而这句话也正是面壁智能发展路线的生动写照。

2020年12月,清华大学计算机系副教授刘知远所在的团队训练了全球第一个中文开源大模型“CPM”,这一项目也是后来中国奠基性大模型“悟道”的前身。2022年8月,面壁智能成立,虽然这是一家年轻公司,但其核心团队是在清华大学自然语言处理实验室长达十几年的深度学习积累基础上成长起来的,且这一成立时间要早于ChatGPT火爆前,是十足的“先人一步”。

而当2023年,国产大模型纷至沓来,市场进入“百模大战”情形后,面壁智能却选择了一条与众不同的路径——端侧模型。

有别于通过规模法则(Scaling Law)以量取胜,动辄千亿、万亿参数的大语言模型,端侧模型致力于仅利用手机、PC等终端算力支撑起一个完整、可用的模型。

刘知远对贝壳财经记者表示,规模法则存在重要悖论:“当把模型训得越来越大后,构建和使用模型的成本都随规模成正比,这会导致世界上越来越少的团队能构建和用得起这样的模型。”


刘知远接受记者采访。 新京报贝壳财经记者吉喆/摄

基于这一洞察,刘知远团队提出了大模型的密度法则(Densing Law)。“就像摩尔定律追求电路密度倍增,对大模型来说,我们应该在单位参数里放下更多知识。”刘知远告诉新京报贝壳财经记者,模型的能力密度每100天就可倍增一次,“意味着每过100天就可以用一半的参数实现100天之前模型的能力,而面壁智能迄今为止的进步均遵守了这一定律”。

2024年2月,面壁智能推出了端侧大模型MiniCPM,用仅仅24亿参数实现了超过百亿参数大模型的性能。2024年6月,面壁智能的“小钢炮”MiniCPM-Llama3-V 2.5模型甚至遭到了美国斯坦福大学一家AI团队的“抄袭”,此事最后以抄袭者致歉撤下模型告终,但这也侧面证明了国产模型开始崛起,实力受到业内人士认可这一事实。

在这一领域,面壁智能不仅很好规避了同一股脑涌入大模型领域的巨头们的“正面交锋”,还积累了深厚的知识储备、方法论,构建起了属于自己的护城河。

“如同芯片制造把非常复杂的电路刻蚀到非常小的空间里一样,相当于我们要把全互联网的大数据萃取到一个非常小的模型之中,提高模型的能力密度,这需要:一、设计一个高效的模型架构,能够装下这么多知识;二、通过数据治理,从PB级的数据中寻找真正高信息量的‘教材’;三、从数据到模型的学习过程本身也是非常复杂的过程,我们提出了‘模型风洞’概念,就像制造飞机之前首先需要在风洞里做模拟实验,我们通过大量实验掌握规律,再把规律外推到真正需要训练的模型上。此外,底层训练使用的芯片参数与之也有非常密切的关系,也需要做软硬协同的设计。”刘知远在接受新京报贝壳财经记者采访时表示。

技术突破与未来愿景:端侧智能的“持久战”

面壁智能的技术创新正在各领域落地生根。近期,这家公司就发布了MiniCPM 4.1 文本基座模型、MiniCPM V4.5 多模态模型、VoxCPM语音生成模型3 款模型,其中VoxCPM、MiniCPM-V 4.5开源后一度成为国际开源社区平台 HuggingFace上排名第一、第二的大模型。

刘知远透露,最近发布的MiniCPM 4.1文本基座模型在架构上做了创新,“能比同尺寸模型速度快五倍甚至更高,这充分展现了面壁智能的技术壁垒。”

但他也向贝壳财经记者坦言,目前AI领域还有大量的问题没有解决,“比如模型架构、学习效率如何更加高效,一旦全球的数据都学完了,该怎么办等等,这一发展过程是不能以线性看待的。对待大模型,第一要务还是要具备创新的意识和能力,比如MoE架构早在2021年就有人做了,但最终让它发扬光大的是DeepSeek。”

刘知远认为,明年和后年,AI领域将出现重要的里程碑式突破——“自主强化学习”技术的成熟。“从去年到今年开始,学习范式从过去的逐字学习扩展到探索式强化学习,这意味着模型能够自己创造数据来学习,比如对一个数学题,模型会探索出十几种不同解题思路,用标准答案验证对错,然后从中学习。这是非常重要的学习范式突破。人类智能的高水平体现不是沿着教材逐字学习,而是具备自主学习能力。任何一个优秀毕业生放到工作岗位上待半年就能成为专家,这种自主性非常关键。”

谈及AI发展的前景,刘知远仿佛科幻小说《三体》中将战略眼光瞄准未来的“面壁者”,“突破自主强化学习后,模型将在任何一个给定领域里持续演化成长。从全球分布来看,最大的算力其实位于用户的终端之上,如果能把这样的模型放到终端上运行,就会成为每个人的专属智能个人助理,当然这件事目前还无法做到,还处在一个不断演化的过程之中。”

事实上,而对于“面壁”这样一个充满科幻气息的名字,刘知远告诉新京报贝壳财经记者,在起名字时其实先定的英文名“ModelBest”,即“要做最好的模型”。中文名必须以M和B作为首字母,“找来找去,我们认为面壁比较符合人工智能的目标,既有科幻气质,又隐喻人类智能发展到最高水平应该可以自省。”

刘知远表示,确立了最终目标后,需要看清形势,准确预判,打好自己的每一场仗。《论持久战》的思想精髓就非常值得创业者去借鉴,因为奔向AGI本身也是一个“持久战”,在这一过程中敌人是不确定的,要跟自己PK,跟友商们PK,跟充满不确定的未来PK,而跑到终点的才是胜利者。

刘知远告诉新京报贝壳财经记者,北京在人工智能方向是全国积累最雄厚的地区。“清华大学在1978年后就设立人工智能方向,有长达几十年的研究积累。”他特别提到北京市各级政府对人工智能发展的高度重视。“2019年我获评北京智源人工智能研究院的智源学者称号,那时大模型还没被广泛关注,但北京已给予非常丰厚的人才支持。”面壁智能在过去三年获得了北京智源、智谱、北京市国资、海淀区等多方面的投资支持。

截至2025年10月,面壁智能的端侧模型已在汽车、手机等终端领域实现规模化落地。刘知远预计,不久的将来,装载其端侧模型的设备数量将实现十倍增长。这位从清华园走出的学者、创业者,正带领团队在AGI的长征中稳步前行。

中国互联网发展基金会中国正能量网络传播专项基金支持

新京报贝壳财经记者 罗亦丹 编辑 陈莉 校对 柳宝庆

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新