当前位置: 首页 » 资讯 » 科技头条 » 正文

清程极智师天麾:MaaS盈利战打响,Infra技术已成利润关键丨GAIR 2025

IP属地 中国·北京 雷峰网 时间:2025-12-26 20:22:33



国产算力多芯片、多架构并存的当下,谁为碎片化买单?

作者丨赵之齐

编辑丨包永刚

2025年12月12-13日,第八届GAIR全球人工智能与机器人大会在深圳·博林天瑞喜来登酒店正式启幕。

作为AI产学研投界的标杆盛会,GAIR自2016年创办以来,始终坚守“传承+创新”内核,始终致力于连接技术前沿与产业实践。

在人工智能逐步成为国家竞争核心变量的当下,算力正以前所未有的速度重塑技术路径与产业结构。13日举办的“AI算力新十年”专场聚焦智能体系的底层核心——算力,从架构演进、生态构建到产业化落地展开系统讨论,试图为未来十年的中国AI产业,厘清关键变量与发展方向。

在大会上,清程极智联合创始人、产品副总裁师天麾,带来了题为《智能算力的适配、优化和服务》的主题演讲。


在国产算力从“能用”走向“好用”的关键阶段,AI Infra正从幕后走到台前。

师天麾给出的判断颇为直接:国产算力利用率的瓶颈,更多在于软件生态与系统级优化能力。

无论是围绕国产芯片的全栈推理引擎自研、通过纯软件方式提前跑通FP4等低精度路线,还是在MaaS(模型即服务)市场中用评测、路由与统一接口“消除信息差”,师天麾试图回答的,都是同一个问题——

在芯片多元、成本高企的现实约束下,AI Infra如何真正跑通性能、成本与商业化的闭环?

演讲之外,他也在与雷峰网的对谈中,进一步拆解了自己为何选择从学术界直接创业,以及第三方AI Infra公司在芯片厂商与云厂商之间,究竟能站在哪个位置上。(作者长期关注半导体、算力上下游等方向,欢迎添加微信Ericazhao23交流。)

01

对话:MaaS性能每通过推理引擎提升一点,厂商就能多挣点钱

雷峰网:您之前曾拿过大厂的offer但还是想直接出来创业,做出这步决策的逻辑是什么?

师天麾:我读博期间发论文还比较顺利,但一直在思考一个问题:做这东西到底有什么用?直到后来蚂蚁研究院和我们合作,把我论文的技术用到金融风控场景里,实实在在提升了不少性能,我就感觉很有成就感。

所以我想把研究成果真正落地,看看自己到底能创造什么价值,就在毕业后来到工业界。

但为什么不去大厂?我和其他博士同学聊过,感觉进大厂后就变成了螺丝钉,我能预想到我面对的应该是很纯粹的技术身份,没法去lead产品的事情。虽然我也想过去大厂里锻炼两三年再出来,但当时已经明显感觉到,AI已经到了必须降本增效的关键节点,所以我和组里的老师和师兄弟商量后,感觉机会不错,就直接出来创业了。

雷峰网:创业的这个方向让你有passion的是什么部分?

师天麾:我2015年上大学,当时比较火的还是上一代Deep learning,CV(计算机视觉)和NLP(自然语言处理),大一暑假去了家自动驾驶公司,实习CV类算法,但感觉不是我的兴趣所在。

在学校学习下来,我感觉计算机系统类的课,比如计算机组成原理、体系结构、并行计算、高性能计算等,这些通过理解硬件、理解上层应用来把中间软件的性能写得很高的事情,带给我的成就感很大。

雷峰网:什么时候感觉到大家开始重视AI Infra?

师天麾:一个很重要的节点是DeepSeek的出现,当时很多外国人惊呼DeepSeek用这么少的卡、这么少的钱就训练出这么大一个模型,但这靠的一是模型架构上的设计,二是Infra软件技术。后来DeepSeek还搞了“开源周”,开源了很多infra加速软件,让大家更意识到infra的重要性。

一个明显变化是,去年我们还要给投资人解释AI Infra是什么,但今年投资人会主动来找我们投资。

雷峰网:但国内市场普遍一直以来没有特别重视软件,这种情况现在会有改善吗?作为第三方独立的Infra厂商,会不会担心未来芯片公司自己做这一层、取代了你们在做的事?

师天麾:其实市场一直以来重视硬件的惯性还是在的。芯片厂商也需要一个推理引擎适配自己的芯片来提供给客户,所以他们自己也会做软件。不过我们和芯片公司各有所长,我们在软件优化方面有更多积累,所以芯片公司也会来找我们合作,我们从各自擅长的角度来做软硬件联合优化。

其实并不能没有第三方公司来做这件事,比如大一点的国央企,会买多家厂商的芯片, 那么要用谁的软件?而且大家做的都是调用DeepSeek大模型这件事,不同芯片跑各自的软件,之后的管理和优化都会非常费劲。

雷峰网:但现在市场上这么多家AI infra,大家在商业化上难度如何?

师天麾:私有化部署的利润还可以,但MaaS上,前两年Infra怎么帮用户提升性能、怎么挣钱, 这个通路没有跑很顺,所以商业化会比较难。但现在非常顺畅,因为MaaS的性能每通过推理引擎提升一点、就能多挣点钱,用我们的推理引擎能挣更多钱,那自然就愿意花钱。

雷峰网:所以MaaS产品未来发展的趋势会是什么样的?

师天麾:今年MaaS市场增长很快,但MaaS这个形式非常讲究优化技术,比如现在的PD分离或大EP并行,对机器规模有一定要求,不是一两台机器就能做。

我非常看好这个模式,这个市场非常标准,而且AIGC的创作者或者AI应用的开发者能非常低门槛低成本用起来。所以未来MaaS就变成一个卷性能和卷价格的机会,这是很好的机会和云厂商合作。而且要把MaaS价格打下来就需要大规模优化,清程极智又很擅长大规模的优化。

MaaS的盈利很看技术。因为省去了中间环节,利润损耗比较少,技术就更重要了。

雷峰网:看到你们的软件已经能帮助实现全平台FP4精度,做这个适配花了多久?

师天麾:适配到全平台FP4精度,其实在今年还做了蛮久的,因为FP4比较涉及芯片底层偏指令的领域,要每家单独适配,而且要有合适的人才。


02

演讲全文

以下是师天麾演讲的精彩内容,雷峰网作了不改变原意的整理与编辑:

谢谢主持人,各位专家、各位嘉宾,大家下午好!今天我演讲的题目是《智能算力的适配、优化与服务》。

首先简单介绍下清程极智,我们是一家初创企业、是清华系的AI Infra公司。清程极智成立于2023年底,目前我们的技术栈,主要是整个AI软件栈,从底层编译器一直到上层的并行计算,我们在这方面有比较多积累,帮助客户优化他们场景里的训练、推理、微调,做端到端的性能优化,给客户降本增效。目前,我们已经完成了三轮融资,股东包括产业方,比如刚刚演讲的并行科技,还有很多北京市和上海市的国资。

首先介绍下我们今年主推的产品——赤兔推理引擎。

M×N困局:国产芯片生态绕不开的系统难题

大家经常说,国产算力的利用率偏低,为什么?暂且不说国产算力的性能或性价比高低,现在最主要的问题是客户用不起来,而问题的根源,就是配套软件不好用

我经常跟客户强调:你采购的是硬件,但真正用的是软件,可软件是看不见、摸不着的存在,也很难让管理层明白价值。用户在使用中遇到问题,大家就归结为“硬件不行”,却忽略了软件栈不完善这个核心症结。我们正在做的,就是补齐软件生态这块短板。

目前大家使用较多的软件是国外的开源推理引擎,但它们对国产芯片的支持力度有限,我们如何才能让国产推理芯片用得更简单、更高效?

答案的第一步,就是必须要有专属的推理引擎——它的作用,就好比手机和电脑里的操作系统,是连接AI应用与底层芯片的核心桥梁。那么这个关键问题该如何破解?

当前行业的现状是,各家芯片厂商都在自行适配推理引擎:先做vLLM的适配版,再做SGLang的适配版,最后可能还要研发自研推理引擎。但实际情况是,即便不同厂商都声称适配了 vLLM 或 SGLang,彼此的适配版本、支持功能和接口却并非完全一致。也就是说,看似同名的适配方案,并不是一套通用软件就能兼容所有显卡。

这给用户带来了很大挑战:不少国央企客户会采购多家厂商的芯片,结果就需要不同软件分别对接不同显卡,后续的开发维护难度就很大。而我们自研的赤兔推理引擎,既能很好地适配海外显卡,更能兼容国产芯片——像华为、沐曦、海光、燧原等主流产品都能无缝对接,极大降低了客户的使用门槛。


不过,适配众多芯片的过程中,会遇到一个系统领域比较经典的“M×N”的问题:底层有N款不同的芯片,上层有M个不同的大模型,如果要在N款芯片上把M个模型性能都跑出极致,就要完成M×N次的组合优化,工作量非常大。而AI Infra领域的门槛又很高,没有那么多人才来完成这么多大工作量的适配和优化。如何破局?就要站在巨人的肩膀上。

过去数年,PyTorch在开源生态的建设上成效显著。目前,一方面,显卡厂商会默认适配PyTorch的算子集;另一方面,绝大多数上层大模型本身就是基于PyTorch框架开发的。只要把这两层的适配工作做好,就能让大模型顺畅地跑起来。但 “能跑” 只是起点,要实现极致性价比,还需要在推理引擎上做深度优化——我们的赤兔推理引擎,正是构建在PyTorch算子集之上的高性能方案。

也经常有人问,为什么不直接用vLLM或SGLang,或者稍微改一改?

基于现有方案虽也算是一条技术路径,但可优化的空间有限。这类系统的架构分为多层:底层有算子层,上层还叠加了各类优化方案。如果仅对底层算子层做优化且保持底层接口不变,系统仍能与开源生态兼容;可一旦改动上层优化逻辑,而开源社区同步更新了对应模块,两者可能再难兼容。

面对这种冲突,那么要么放弃自研的上层优化策略,要么彻底脱离开源社区的技术迭代路线。而且,从vLLM、SGLang这类主流框架分叉出独立的技术分支,后续的维护和迭代也会极为庞杂,技术包袱会越来越重。这正是我们选择全栈自研的核心原因。

与此同时,当前算力成本很高,要实现极致的性价比,必须打通底层硬件、算子层、推理引擎、上层算法与应用的全链路,通过端到端的系统级联合优化,才能达成最优效果。我们提出的跨多层联合优化方案,但只有基于自研推理引擎才能更高效地落地,它更灵活,能支撑全链路协同优化。

接下来给大家介绍赤兔推理引擎的最新进展。我们昨天刚刚发布了0.5版本,这个版本带来了多项核心特性,算力超节点上提供开箱即用的大规模推理部署能力,包括超大规模专家并行、PD分离、AF分离等关键能力。值得关注的是,针对前段时间备受行业关注的华为384超节点方案,我们已完成深度适配与性能优化,并同步在昨天正式发布相关支持能力。

赤兔推理引擎拥有一项核心技术特色。今年 DeepSeek 模型的爆火,让大家注意到它的原生数据格式是 FP8,但目前大部分国产显卡并不支持FP8格式,仅能兼容int8或FP16。这就给客户带来了两难选择:如果用FP16运行,会导致显存占用翻倍,需要投入双倍的机器成本,性价比极低;如果改用int8,整数格式又会牺牲浮点数的精度,影响模型效果。而从行业趋势来看,大模型正朝着低位宽浮点数的方向演进,国内目前不仅缺乏对FP8的完善支持,FP4的适配更是遥遥无期。

我们的解决方案是通过纯软件技术突破硬件限制——即便底层硬件不支持,我们也能让FP4和FP8格式顺畅运行,把未来几年才可能普及的特性提前落地,并且已在多款国产显卡上完成适配。具体来说,我们通过底层指令转化技术实现这一突破:在靠近指令集内层的底层接口做适配,计算时为保证精度转成FP16处理,存储时则采用FP8格式,既兼顾了效果又控制了显存占用。FP4的适配逻辑与此一致,目前已支持英伟达、昇腾、海光、沐曦等多款硬件平台。我们在DeepSeek-R1上的测试也印证了技术方向的正确性:不同精度格式的效果排序为FP8>FP4>INT8>INT4,这充分说明FP4这类低位宽浮点数格式确实是大模型发展的主流趋势。

MaaS市场纷繁复杂,如何消除信息差?

解决了国产算力“能用”和“用好”的问题,更要思考如何实现商业价值。为此我们推出了另一款产品 ——AI Ping,这是一个一站式大模型服务评测与API调用平台。刚才有领导提到了MaaS(模型即服务),而AI Ping正是对MaaS模式的落地实践:

它的成本和使用门槛极低,单次API调用费用甚至不到一分钱,不会编程也能轻松上手;同时实现了快速迭代、开箱即用,用户完全不用关心服务部署在国产显卡还是英伟达显卡上,更无需了解底层技术实现细节。而且依托背后的大规模集群与资源池,它的扩展性和并发支持能力极强,应用开发者只需聚焦自身业务与AI功能开发,无需分心底层运维。


今年国务院发布的《关于深入实施 “人工智能 +” 行动的意见》中,特别强调了要打造MaaS生态;IDC去年曾预测今年市场增长率会达到100%,当时我就觉得这个预测偏保守,果然前不久最新数据显示,今年上半年中国MaaS市场增长率已经超过400%,不少头部云厂商甚至提前完成了年度目标。

中国其实具备发展MaaS产业的很好土壤。从供给侧看,我们拥有全球最繁荣的开源模型生态,只要有服务器就能部署热门模型,同时AI算力近年来爆发式增长,各类智算中心提供了充足的基础设施支撑;从需求侧讲,MaaS的低成本、低门槛优势,让企业开发者能快速看到落地效果,个人开发者则无需承担高昂的服务器租赁成本,科研人员和普通消费者也能轻松享受到AI服务。现在很多To C端的聊天、翻译软件,本身集成了AI功能却没有底层服务能力,用户只需在MaaS平台注册账号,把API接入这些应用,就能直接使用账号余额消费,这种模式已经被大量To C应用采用。

但不可否认的是,MaaS产业还处于起步阶段。结合我们的实践观察,当前中国MaaS行业的痛点主要有什么?

首先,在供给侧,现在有很多指标来判断服务的优劣,在延迟、吞吐、可靠性、输入/输出价格、上下文长度、最大可输出长度等这些指标上,大家各具特色。以几家最知名的互联网云厂商和电信运营商举例,在相同模型以及价格相同的情况下,模型效果和价格一样,性能(吞吐、延迟)却可以差5倍。无论对企业还是个人来说,都不可能挨个试所有供应商的服务,这中间是存在信息差的。

需求侧,大家的需求也不一样,企业可能想要延迟低一点,用户体验好;个人可能希望价格便宜一点,性能差不多就可以;对科研人员来说,有经费,但希望模型非常丰富,更快用到最新的模型;普通消费者则更关注体验、功能、成本等方面。

供给侧和需求侧都各异,那用户应该找谁家来用?如何对齐供需?对此,我们推出了AI Ping,测试市面上能见到、接入的所有MaaS厂商。

首先,我们的评测完全站在用户视角展开,采用匿名端到端测试模式。市面上有些测试聚焦于集群规模,但对个人用户而言,他们对MaaS厂商宣称的庞大集群、服务器数量和并发能力并不感冒——毕竟这些资源并非为单个用户独享。我们更关注的是,个体客户能从平台切实获取到怎样的性能,真正以真实客户的需求为核心开展评测。

其次,我们的评测覆盖范围极广,目前已接入29家MaaS厂商,整合了400余项MaaS服务,力求实现应接尽接。第三,我们执行7×24小时不间断评测,持续监控各模型的性能、吞吐、可靠性等核心指标;信息聚合的维度也十分全面,除了性能指标外,价格、上下文长度、最大可输出长度等开发者重点关注的参数,我们也都在AI Ping进行了汇总。


AI Ping的评测方法也非常可靠,我们与清华大学进行了合作,依托翟季冬教授团队多年来评测中国超算中心的丰富经验,由其提供一套成熟可靠的评测方法论,我们负责完成工程化落地和技术支持。

关于评测数据的准确性,我们也做了交叉验证:选取部分自带后台性能监控的云厂商,将我们的评测结果与其监控数据比对,显示吞吐指标的平均误差在 0.2% 以内,精准度极高。P90 首次延迟稳定在 0.8 秒以内,处于合理区间。需要说明的是,我们统计的是端到端延迟,而云厂商的监控数据不包含网络传输时间,综合来看,我们的性能测试结果具备高度准确性与可信度。

我们还会在官网首页每天更新模型的排名。如果部分客户有特殊要求,比如希望首次延迟在5秒以内、输出吞吐在40TPS以上,那就可以直接使用我们的筛选和排序功能,快速找到符合要求的供应商。

“路由”功能告别MaaS供应商选型困境

积累了大量评测数据后,我们还思考如何为用户提供更深入、更优质的服务。或许你看过评测后,会选定某一家供应商,但单独选择一家供应商其实存在不少问题。

首先,是性价比难以稳定。供应商的性能会出现波动,但价格通常不会轻易变动,除非遇到用户活动才会调整,这就导致性价比始终处于波动状态,单家供应商很难一直保持最高性价比。

其次,服务稳定性缺乏保障。比如今年年初大家使用DeepSeek模型时,就经常遇到服务拒绝请求的情况,根源在于用户量过大,后台支撑不足;除此之外,服务器繁忙、网络抖动、系统宕机甚至服务突然下架等问题,都会严重影响用户使用。

同时,更换供应商的过程也十分繁琐。每换一家供应商,都需要重新注册、认证、充值;即便是同一个模型,在不同供应商平台的接口、支持的参数以及返回的错误码都各不相同。例如同样是并发上限、服务繁忙、参数错误这类问题,不同供应商返回的错误码却不一样,用户不得不重新对接API、修改错误处理代码。这类工程问题非常棘手,是程序员们普遍反感的麻烦事。

因此,在评测和数据展示功能之外,我们额外开发了供应商路由功能。我们会提供统一的接口,比如你要使用DeepSeek模型,只需接入我们这一个接口,就能直接调用背后20多家供应商的资源,大幅节省适配成本。无论是开源模型还是闭源模型,我们都会全面接入用户基本能找到所有需要的模型;如果有模型尚未上架,用户随时提出需求,我们会第一时间完成上架。

这个功能还具备高可用性:当某一家供应商出现繁忙、宕机或服务报错时,系统会自动将请求切换至其他供应商。同时,我们会提供高性价比推荐服务,用户可以根据自身需求选择“成本优先”或“性能优先”,系统会筛选出符合条件的供应商。而且所有数据完全透明,性能表现、Token消耗以及产生的费用,都会在后台实时反馈。根据过往数据,这个功能最多能帮助用户降低50%的成本,同时延迟和吞吐指标也有明显优化。

今年清华大学联合中国软件评测中心发布“2025大模型服务性能排行榜”,将我们在市面上找到的20多家供应商的热门模型服务全部比了一遍,由第三方机构发榜,我们提供工程实现、数据评测与展示平台。

欢迎大家关注我们的公众号或加入用户交流群,也可以看看我们的官网。每次新模型发布,我们的公众号上会在最快时间发布新模型的解读,以及有哪些供应商上架、性能情况,我们都会发布排行榜,帮助用户进行选型。

谢谢大家,也谢谢大家关注清程极智。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。