当前位置: 首页 » 资讯 » 科技头条 » 正文

X平台疯传!这个国产开源模型,把信息图生成整明白了|附实测

IP属地 中国·北京 编辑:郑佳 智东西 时间:2026-05-30 14:13:22

智东西

作者 | 陈骏达

编辑 | 漠影

今年4月底,GPT-Image 2发布,带动了一波信息图(Infographic)生成热潮。从书籍摘要到商业报告,过去需要设计师才能完成的复杂版面,开始被AI批量生成。“AI信息图”成为近期内容创作领域讨论热度最高的话题之一。

但热潮背后,一个问题随之浮现:GPT-Image 2是闭源的,按Token计费,每百万输出Token高达30美元,对于有本地部署和二次开发需求的团队来说,它并不是一个可以长期依赖的选项。

“有没有可商用的开源替代方案”成为开发者社区的高频讨论。在这个背景下,商汤科技4月底开源的SenseNova U1开始进入越来越多开发者的视野,并在X平台引发了大量讨论。

SenseNova U1采用了商汤自研的创新NEO-unify架构,彻底丢弃了传统图像模型必备的VAE和视觉编码器,将像素与文字放入同一表征空间原生建模。这意味着模型不再“翻译”图像,而是同时用两种语言思考,从根源上解决了压缩带来的细节丢失和噪声问题。

Hugging Face中国开发者社区工作人员Adina Yakup评价道:“这一模型实现了纯粹的端到端像素-文字建模。”

在结构化版面、密集中英文混排、图文精准对齐任务上,SenseNova U1实现了不错的效果,而这些历来是开源生图模型的软肋。AI博主Rohan Paul评价它:“攻克了图像生成最难啃的骨头。”

成本是SenseNova U1的另一大亮点。这一模型采用Apache 2.0 协议,支持商用,权重全开,单卡可跑,科技分析媒体Testing Catalog认为,其成本约为闭源方案的十分之一。开源不到一周,社区已自发提供GGUF量化权重,进一步降低部署门槛。

持续的高关注度下,近日,商汤进一步开源了SenseNova-U1-8B-MoT-Infographic(信息图增强版),直接接瞄准信息图这一高需求场景。与GPT-Image 2等主流闭源方案相比,它在成本、可部署性和二次开发空间上提供了截然不同的选择。

实际效果究竟如何?我们通过一轮实测,看看这款开源模型能交出怎样的答卷。

一、七大硬核任务实测:梳理老黄行程、直出海报与论文,高密度文字渲染已无明显破绽

开发者在X平台讨论SenseNova U1时,反复提到两个核心问题:文字渲染能不能稳?复杂版面能不能控?这也是信息图生成最本质的难点所在。我们把这两个问题放在实测的最前面,先验证基础能力,再延伸到海报、学术文档等更多场景,最后与GPT-Image 2进行横向对比,看两款模型的设计取向究竟有何不同。

(1)还原老黄“特种兵式”访华细节,梳理大模型演进时间线

第一个案例是最近很火的黄仁勋同款行程,老黄先到访了人民大会堂,在北京南锣鼓巷开启特种兵般的行程,吃炸酱面、喝豆汁儿、买蜜雪冰城,还尝了稻香村,随后开启台北之旅。

面对这个任务,SenseNova U1信息图增强版先对复杂行程做了完整拆解,并按照合适的方式安排布局。生成的信息图结构清晰,图文结合也较为符合场景,还配有生动形象的描述,十分有现场感。

文字渲染方面,在这种高密度的场景下,依然能准确呈现地点、餐品名称及细节,整体可读性很强,展现了模型在复杂版面中对文字的稳定控制力。

看完这个轻松的案例,我们又让SenseNova U1信息图增强版打造了一张“LLM Architectures 大语言模型架构演进”的横向知识图解。这个案例的难点在于包含大量数据,如何在柱状图中调整110M到1.8T的悬殊比例、让表格内的中英双语参数精准对齐,都是不小的挑战。

SenseNova U1信息图增强版完美渲染了我们提供所有的文字信息,从BERT到GPT-5,年代和参数规模一目了然,没有出现文字乱码。在图表部分,柱状图渲染的效果基本符合数据大小,SenseNova U1信息图增强版还用箭头体现了模型之间的技术传承。

(2)生成音乐节与诗歌节海报,审美和准确度都在线

信息图还有一个十分常见的用法,就是海报生成。相比知识图解对数据精度的严苛要求,海报更考验模型对视觉冲击力、排版美学的理解能力。

在音乐节海报任务中,我们要求SenseNova U1信息图增强版生成一张以富士山为主要视觉元素的海报。图片中央的富士山元素和舞台元素融合自然,下半部分的演出阵容以网格状整齐排列,12组音乐人的英文名和时间清晰列出。整体信息层级按照大标题、日期、阵容的顺序依次展开,视觉引导流畅。

总体来看,SenseNova U1信息图增强版很好地还原了深夜音乐节的氛围。

在诗歌节海报任务中,我们在提示词中强调了“中间留白约占画面40%”以及“呼吸感极强”。模型准确地理解了这些要求,没有因为追求视觉效果而塞入多余装饰,而是严格遵循了克制的原则。

它还执行了深色衬线字体与米色纸张纹理的搭配,呈现出画面整体气质沉静,左下角竖排小字与右下角线描月亮的构图,精准捕捉到了东方留白诗意与现代排版的平衡感。这种对“少即是多”的理解能力在文生图中并不多见。

SenseNova U1信息图增强版在应对精准排版指令时展现出了不错的执行力,生成的画面不仅好看,更能用于实际宣发场景。

(3)结构化文档生成,直出一页学术论文

最后,我们还考验了SenseNova U1信息图增强版在办公场景的应用。这类场景要求模型能精准理解文档的常见格式要求,并准确渲染所有文字。

第一个案例是Q2业务回顾的演示文稿单页。SenseNova U1信息图增强版生成了深灰底、左侧竖排标题、右侧进度条的分栏结构,中英文副标题右对齐到位,进度条上“Revenue 128%”标注清晰,底部页码与公司名摆放工整。

处理这类商务页面时,模型对版面的留白控制得很舒适,没有多余的装饰元素去干扰信息层级,重点数据一目了然。

第二个案例是生成高密度的论文页面。生成高密度学术论文页面的核心难度在于对复杂视觉元素与严谨逻辑关系的精确控制。提示词中的要求按照arXiv 风格进行页面渲染,且需要符合严格的学术排版规范(如斜体、加粗及专有名词标注)。

最终,SenseNova U1信息图增强版准确输出了完整的页面排版,格式清晰、段落完整,复杂的数学公式也没有出现结构性错误,尤其在这类文字密度极高、格式复杂的情况下。整体呈现出可直接使用的完成度。

最后一个案例是难度拉满的高密度中文小字。下图中是一家企业的品牌运营逻辑和市场表现全景解析,SenseNova U1信息图增强版不仅准确渲染了几乎所有中文小字,排版也较为清晰易读。

总体来看,SenseNova U1信息图增强版在信息图任务上展现出了不错的版面控制力与复杂指令遵循能力。这让它有潜力成为内容创作与办公场景中的得力视觉工具。

二、与GPT-Image 2横向对比:两种不同的设计取向

X平台上有不少网友把SenseNova U1信息图增强版与GPT-Image 2放在一起讨论。我们也做了对照的测试,看看这两个模型在实际任务中有何异同。

我们的首个案例聚焦于当前火爆的分镜生成玩法,要求两个模型分别生成一段跑酷动作序列:在未完工的灰色混凝土建筑内,一名运动员以动作捕捉剪影的形式,完成精准跳跃、墙跑和落地翻滚等一系列连贯动作。

GPT-Image 2先交出了生成结果:

SenseNova U1信息图增强版随后完成了生成:

从视觉质感与逼真度的维度来看,GPT-Image 2生成的光影、材质、环境氛围比较逼真,富有视觉冲击力。SenseNova U1信息图增强版则偏向概念化,强调动作路径和图形化表达。

从信息呈现与分镜实用性来说,SenseNova U1信息图增强版的生成结果专业且清晰。它将每个镜头细致拆解为:镜头语言(怎么拍)、动作(怎么做)、视觉特效(加什么特效)。拿到这个分镜脚本已经基本可以开始制作了。

GPT-Image 2的生成结果在实用性上稍逊一筹。它看起来很酷、很科幻,但缺乏具体的制作指令。

在另一个信息图生成测试中,我们为两个模型输入了同一份复古航海图风格的提示词:要求生成一张横版信息图,以做旧纸张为基底,用虚线航线串联起从“创意萌芽”到“产品上市”的六个阶段岛屿,并标注风险暗礁、资源漩涡等危险标记。GPT-Image 2与 SenseNova U1 信息图增强版再次展现出不同的设计取向。

GPT-Image 2在航海图任务中延续了艺术化取向,较好地还原了做旧纸张纹理、手绘风格地标与古典装饰元素,整体沉浸感强;但细节繁复,字号较小,阅读效率不高。

SenseNova U1信息图增强版则选择弱化了厚重纹理,视觉负担更轻,信息获取更直接,更契合商业图表的高效传递需求。

综合以上两个实测案例,我们可以清晰看到两款模型在信息图生成领域呈现出的分化。

GPT-Image 2是“视觉派”,擅长通过光影、材质,打造具有冲击力和情绪的视觉作品。但在需要精确拆解逻辑、清晰传递密集信息的场景中,它的生成结果往往过于重视觉而轻信息,导致可读性下降。

SenseNova U1 信息图增强版则更像是“生产工具派”:它优先保障信息的结构清晰与获取效率,而它的短板在于视觉质感和稳定性仍有提升空间。

三、回到开发者的问题:架构、部署与真实价值

实测结果回应了X平台上那些讨论的核心判断,但也带来了一些新的问题值得深挖:这款模型为什么能用8B参数做到这些?开发者真正部署时会遇到什么成本?它在哪些场景下是可靠的生产工具,在哪些场景下还需要谨慎?

作为一款仅有8B参数的大模型,尺寸并不是SenseNova U1系列模型唯一的特点。过去,多模态大模型长期受困于“理解”与“生成”的二分——通过视觉编码器(VE)看懂图像,再经由变分自编码器(VAE)生成图像,中间依靠适配器连接。

这种拼接式架构如同一个“讲不同语言的工作组”,信息在模块间来回传递,不仅损耗大,更让模型不得不依赖堆参来弥补性能损失。

商汤科技发布的SenseNova-U1系列模型从根本上解决了这一难题——它采用了自研的NEO-unify架构范式,在单一模型中原生统一了多模态理解、推理与生成,真正将图像与文本放到同一个表征空间中直接建模。

在此前发布的SenseNova-U1基础上,商汤专门强化了SenseNova U1信息图增强版的信息图生成能力。为了避免通用理解能力在生成能力提升的过程中退化,商汤用高质量数据延长了MT训练阶段、在MT与SFT阶段优化了理解与生成任务的数据配比、在 RL阶段进一步打磨了奖励设计。

最终,增强版模型在信息图相关基准上实现了显著提升:在 BizGenEval(Hard) 任务中,较原版模型提升了6.8分;而在 IGenBench 的 Q-ACC(问答准确率) 测试里,该基准用于评估信息图是否同时满足文本、图表、数据与结构等多重要求,增强版较原版更是大幅跃升了18.2分。

统一架构还赋予了SenseNova U1信息图增强版更丰富的任务边界:它不只是一个生图工具,还可以完成多类型任务,让内容创作的整个链路都能在一个模型内闭环。

在上述的信息图、视觉理解任务中,SenseNova U1信息图增强版都展现出了扎实的实力。而更值得开发者关注的是,这份实力并非以高昂的算力或API调用成本为代价。

作为一款Apache 2.0协议全开源、支持商用的模型,SenseNova U1信息图增强版支持轻量化的本地部署。本次实测中我们选择的是一张RTX 5880显卡,拥有48GB显存,实际跑下来显存占用大概在30多GB。我们还试着将显卡显存大小调整至24GB、8GB,结合虚拟显存后,这些配置也能成功跑出结果。

而在RTX 5880的配置下,SenseNova U1信息图增强版生成一张信息图的时间大概在70秒左右(2048×2048,推理步数30)。同时,GGUF量化后的模型,适用于约10–12 GB显存的消费级显卡。

这让SenseNova-U1系列模型具有较强的性价比。以GPT-Image 2为代表的主流闭源模型采用按Token计费的模式,每百万输出Token价格高达30美元,生成一张高分辨率信息图的估算成本在0.005美元至0.4美元不等。单张调用似乎不贵,但对于日均生成上千张图像的团队来说,成本压力迅速累积。

相比之下,SenseNova-U1系列模型可在开发者自己的服务器上无限次运行。这种成本结构对团队而言是高度可预测、极低边际成本的。

结语:统一架构的想象力,远不止信息图

回到最初网友们讨论的焦点,实测给出了答案。SenseNova-U1系列模型的架构突破是真实的,NEO-Unify去掉VAE和视觉编码器之后,模型在信息层级理解和版面控制上确实获得了结构性的改善,而不只是基准分数的跃升。

此外,模型在信息图这一场景的细分能力也十分突出。在行程梳理、海报生成、学术文档等高密度场景中,它能交出可用的结果,并非噱头。

而其开放的姿态和极低的部署成本,让这种能力不再只是实验室里的演示,而是真正有机会落地到开发者自己的产品和工作流中。

当然,极高密度文字场景下偶发的乱码、视觉质感与GPT-Image 2之间的差距,都是它还在打磨的空间。但一个8B的开源模型,能把这场对话推进到这里,本身已经说明了一件事:统一架构的想象力,远不止信息图。

标签: 信息 模型 增强版 视觉 开发者 开源 海报 任务 成本 文字 高密度 场景 部署 数据 元素 精准 商汤 整体 结构 动作 行程 细节 架构 空间 能力 页面 内容 科技 文档 层级 版面 问题

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。