当前位置: 首页 » 资讯 » 科技头条 » 正文

十年鏖战十连冠:商汤方舟以视觉 AI 打造城市智能参谋

IP属地 中国·北京 南方都市报 时间:2026-06-05 14:28:14

近日,国际权威咨询机构IDC发布了最新的《中国AI软件市场》报告。在视觉AI这一赛道上,商汤科技再度登顶,以史无前例的“十连冠”战绩,牢牢锁定了市场的领导者地位。

时间拨回至十年前,视觉AI的商业化刚刚萌芽。彼时,给机器装上“眼睛”,让其学会认人识物,是整个行业的目标。而今天,随着大模型技术的爆发,这双“眼睛”不仅能看见,更长出了“大脑”。

IDC在报告中指出,计算机视觉市场正经历从“CV 1.0”到“CV 2.0”的深刻变革。视觉AI正从单纯的“看”,全面走向“看懂、会搜、能生成”。这并非一句空泛的口号——截至目前,作为商汤视觉AI核心产品平台的“商汤方舟SenseFoundry”,已成功落地200多个城市,服务3万余个园区、楼宇、网点及交通枢纽,在实际场景中落地视频理解、检索、决策生成等 CV2.0 核心能力。

算准“经济账”,让千行百业用得起视觉AI

什么是视觉AI?通俗地讲,就是让机器拥有视觉感知能力。

商汤科技智慧城市与商业事业群副总裁朴元奎经历了CV 1.0到CV 2.0进化过程,在他看来,这两个时代有着明显区别。“以前我们做视觉AI,主要就是解决‘看’的问题,就像一个尽职的巡检员,盯着每一个目标;而现在除了看,机器的理解能力更强了,它能做视频搜索,能做决策,甚至能执行与物理世界相关的复杂任务。”朴元奎表示,如今的视觉AI已经从单纯的城市安全,全面延伸到了生产制造和企业运营的提效中,变成了千行百业的“运营参谋”。

这种进化的背后,伴随着技术路线的深刻思考。当下,大语言模型火爆全网。对于普通消费者而言,手机中的大模型App就像个“全才”,传张图片、问个问题,它似乎什么都能解答。

但当这种大众熟知的“通用AI”被直接搬进产业级场景中,水土不服的问题便显现出来。

商汤科技智慧城市与商业事业群CTO赵瑞分享了一个真实的业务场景:一位化工厂行业的客户,将设备异常的照片上传至手机中的AI应用,反馈回来的结果准确度不达标,使用体验与日常场景的提问相距甚远,于是找到商汤讨论解决方案。

赵瑞解释道,一方面,判别式的工业场景(如设备微小裂纹、流水线残次品)要求99.9%的严谨度,才能持续保障安全的生产环境,以及达标的产品良率,这是聊天、作图的通用大模型无法稳定胜任的。另一方面,C端通用大模型通常部署在公有云上,而大型园区或工厂往往需要私有化部署的模型对上千路生产环境的视频实时监测分析,公有云上的通用大模型不仅不满足私有化部署的条件,而且算力成本极高还存在“幻觉”问题。

既然通用大模型在工业界“不够专”,那回到过去的老路子呢?

在过去很长一段时间里,为了满足高精度识别标准,AI企业走的是“专用小模型”路线。也就是来一个需求,就单独定制一个模型——专门识别矿泉水瓶的模型、专门识别手机的模型、专门识别安全帽的模型等等,包罗万象。

“这在技术上完全可行,而且精度高、部署方便,但它有一个致命弱点:研发成本太高了。”赵瑞坦言,每增加一个新目标,就需要投入一份重度的研发成本。这种“手工作坊”式的研发模式,根本无法支撑起业务规模化与追求净利的商业目标。

通用大模型“太贵且有幻觉”,专用小模型“开发成本太高”,怎么破局?商汤给出的核心解法是——“通专融合”。

简而言之,“通专融合”是用之前项目上做过的“专才”视觉模型打底,进行第一级实时视频信息处理,再用通用多模态大模型这个“通才”级联处理,将“专才”模型适配到新的项目场景,以综合实现更好的精度和性能表现。

以城市治理场景为例。台风天过后,路面会出现单车倒地、树木折断、井盖丢失、道路积水等各种突发异常。如果按照传统的专用模型路线,每一个异常都需要单独开发一套算法,既昂贵又迟缓。而如今,商汤通过“通专融合”的方式,能够让系统快速“认识”这些新目标,并利用大模型迅速过滤掉复杂的误报(例如水面反光造成的误判)。


商汤方舟平台分析台风天路况。

“这就从根本上改变了原来的研发模式。来一个新需求,不再需要投入一份高昂的重度研发成本,效率提升和成本下降是必然的。”赵瑞表示。正是这种务实的技术路线升级,构成了商汤CV 2.0业务实现净利润与正向现金流双突破的关键支撑,为行业树立了“技术落地+商业盈利”的标杆。

扎根真实场景,打通AI落地的最后一公里

商汤不仅通过“通专融合”的差异化路线降本增效,并且很早就开始从交付模式着手布局、搭建配套落地体系,多个维度齐头并进提升针对定制化场景的标准化服务和应对能力。

朴元奎坦言,商汤很早就成立了专门的“架构师团队”,他们的角色不仅是写代码,更是深入一线,把客户的业务逻辑重新梳理一遍。

一个典型的案例是香港沙头角中英街新检查站的无感通行创新项目。

过去,中英街的居民过关,需要反复出示证件、刷脸。客户提出了一个极高的期望:通行者出入境时,无需停下脚步,直接走过去,即实现完全的“无感通行”。这看似只是一个简单的人脸识别需求,但在真实的口岸环境中,却堪称“地狱级难度”。


中英街检查站无感通道。(星岛网)

“白天的日照极强,会产生严重的背光,人脸拍出来是黑的;下雨天地面积水,人脸会在水面上产生反照;沙头角的原住民有时会穿一些带有复杂卡通图案的衣服,非常容易引发系统的误报。”回忆起项目初期的挑战,朴元奎直言这是一场硬仗。面对这些棘手的“技术刺客”,标准化的AI产品根本无能为力。

为了啃下这块硬骨头,商汤成立了特勤攻坚小组。赵瑞回忆道,团队的架构师直接驻扎在沙头角的关口,和海关的工作人员打成一片。“村里几万人口每天进出,我们的架构师连原住民都认熟了。大家就在现场,一点点根据光照、反光的情况去定制算法,去决定哪些问题靠后端的算法解决,哪些靠前端摄像头的硬件去调整。”

经过漫长而精细的驻场迭代,这套系统最终稳定运行。原本繁琐的过关流程,变成了如散步般顺畅的“无感”体验。香港政务司司长陈国基表示,“以后大家就不用出示证件,可以很快过关。举一反三,我认为将来其他出入境口岸就可以利用这个科技,帮助进行出入境口岸通关。”

十年磨一“舰”,向全球输出中国AI新范式

能够支撑起庞大的定制化需求与全球化扩张,离不开商汤沉淀了十年的视觉平台底座——商汤方舟。

在十连冠的光环背后,是一条无数次残酷竞争铺就的路。赵瑞回忆起2016年至2019年间的行业狂热期,当时商汤与众多友商在各个实际项目中贴身肉搏。“最多的时候,一年估计有超过100场真刀真枪的PK,竞争极其激烈。”正是这种跌宕起伏的持续磨砺,让商汤的算法底座始终维持在国内最顶尖梯队,也让无数抗压能力弱的竞争者黯然掉队。

而方舟平台本身,也随着时代的脉搏,经历了四次关键的跃迁。

第一阶段是“平台化”。在行业还在做单点视频流识别时,商汤已经预判了万路级视频流接入的需求。早在2018年进博会中,商汤就在上海实现了上万路视频的会务安全保障建设,确立了平台级产品的先发优势。当视觉AI从城市安全逐渐外溢到智慧民生、交通管理等广阔领域时,其他厂商往往是每进入一个新行业就重新做一遍系统,而商汤则能将底层能力迅速横向平移,占据了极大的市场先机。

第二阶段是“国产化”。2020年商汤开始布局算力国产化的路线,投入重兵进行适配调优,让国产芯片在方舟平台上实现了从“刚刚跑通”到“性能对齐”,目前充分适配了国内主流的国产芯片和硬件服务器,为大模型国产化落地提供了全面的算力保障。

第三阶段是“视觉多模态升级”,随着2023年大模型浪潮的到来,方舟快速融合日日新SenseNova多模态模型,推出了方舟新智(SenseFoundry VL),新平台通过构建全新的“通专融合”视觉技术体系,着力解决传统视觉业务所面临的场景泛化低、模型训练成本高等问题。目前新平台在多业务领域的场景广泛使用,从客户实战化场景中验证了技术价值。

第四阶段则是当下的“智能体升级”,商汤将Agent技术与多模态能力相结合,推出了方舟数智(SenseFoundry Agents),通过打通全流程工具使用与业务链路,方舟平台正凭借多模态交互与自主规划能力,实现从“视觉感知中台”向“数智化运营中台”全面演进。

这种被验证的“中国范式”,也正在海外市场释放出强劲的增长动能。

据了解,商汤目前已覆盖东南亚、东北亚、中东等地12个海外市场,将视觉AI应用于智能硬件、企业运营、医教服务、文旅出行和城市治理等五大领域。2025年,商汤海外B端客户数量和复购率均创新高,客户总数已突破500家。

进入2026年,随着海外视觉AI业务加速与多模态大模型融合,商汤的ARR(年度经常性收入)增长强劲。其业务模式正逐步从项目型向平台型转变,为海外市场的长期发展奠定了坚实基础。

十年磨一剑。从CV 1.0时代的“巡检员”,到CV 2.0时代的“运营参谋”;从依靠高昂人力的定制开发,到依靠“通专融合”的低成本交付。商汤视觉AI的“十连冠”,是一场长达十年的自我革新。在技术与商业的双轮驱动下,这家AI软件企业正以更加务实的姿态,将人工智能的“涓涓细流”,真正引入千家万户的日常生活与千行百业的运转齿轮之中。

采写:南都湾财社记者 严兆鑫

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。