当前位置: 首页 » 资讯 » 科技头条 » 正文

智象未来超两千亿参数图像大模型HiDream-O1-Image-Pro发布,融资持续提速

IP属地 中国·北京 编辑:唐云泽 甲小姐甲子光年 时间:2026-05-20 18:14:56

5月19日,北京。 智象未来举办首届开放日,主题为“ Imaging the World ”。在开放日上,智象未来正式发布基于新一代原生全模态模型架构 Unified Transformer(UiT)打造的图像大模型 HiDream-O1-Image-Pro。这一超2千亿参数的原生全模态图像大模型,不仅在多个基准测试中刷新 SOTA 纪录,也标志着智象未来正向图像、视频、文本、音频等多模态统一建模的“原生全模态”阶段迈进。

同时,智象未来宣布完成新一轮亿级融资,深创投、金浦投资、财鑫资本、复聚资本等多家机构参与。这是智象未来半个月内再次完成融资,体现出资本市场对原生全模态大模型方向的持续看好。随着视觉生成、具身智能等前沿技术加速融合,世界模型成为 AI 演进的重要方向,智象未来在底层模型架构、产品化能力与产业生态布局上的持续突破,也获得了市场进一步认可。

200B+ 参数图像大模型HiDream-O1-Image-Pro 发布,原生全模态架构全面升级

当前,图像生成模型正从传统 U-Net 架构迈向扩散 Transformer(DiT)时代。以潜在扩散模型(LDM)为代表的主流路线,通过 VAE 压缩图像、独立语言模型编码文本,在效率和生成能力上取得显著进展,但图像与文本分离编码的方式,也使模型在复杂语义理解、高保真细节还原、精准文字渲染、多任务泛化等方面面临天然瓶颈。

面向这一挑战,智象未来正式发布基于原生全模态架构的 200B+ 参数闭源图像大模型 HiDream-O1-Image-Pro。不同于传统碎片化、多模块拼接的编码范式,HiDream-O1-Image-Pro 将原始图像像素、离散文本标记和任务条件统一纳入连续共享标记空间,实现图像、文本与多任务条件在底层表征上的深度融合。这一架构突破进一步释放了模型的生成能力与泛化能力,使其在通用文生图、高保真文字渲染、多样化场景生成、图像编辑等任务中达到新的 SOTA 水平,展现出智象未来在原生全模态大模型架构上的领先探索。

智象未来创始人兼 CEO 梅涛表示,智象未来选择原生全模态路径,源于团队在视觉生成与物理世界结合过程中的长期判断:“当前很多‘多模态大模型’,本质上还是‘单模态拼接’。而原生多模态,是从一开始就把‘世界的规则’刻进模型里——它知道物理定律、空间关系、因果逻辑,所以它能真正理解世界、推理世界,重构世界,而不只是‘生成内容’。所以,我们判断,原生全模态是实现 AGI 的必经之路。”

智象未来联合创始人兼CTO姚霆介绍,不久前,采用原生全模态架构的HiDream-O1-Image 以8B参数开源版本在全球知名独立评测平台 Artificial Analysis 文生图榜单上登顶开源模型全球第一,表现超过 Z-Image Turbo、Qwen-Image、FLUX.2 [dev] 等主流开源模型,并成为该榜单排名前20中公开参数量最小的模型版本。此次发布的HiDream-O1-Image-Pro为闭源版本,超两千亿参数,在复杂文本渲染、指令编辑、多主体个性化等任务上全面树立新 SOTA, 充分验证了原生全模态架构范式的巨大可扩展性。

姚霆表示:“原生全模态(UiT)架构下,所有模态从初始阶段就是青梅竹马长起来的。这样的好处是,所有的模态都打通后,能够真正的做到‘ Any to Any ’,任意的输入支持任意的输出,这也是世界模型所需要的能力——在统一架构中理解、生成并预测现实世界的不同状态。”

从视觉生成走向世界模型:行业共议 AGI关键路径

当前,大模型竞争焦点正从语言理解与内容生成,转向对真实物理世界的理解、生成和预测。围绕世界模型,行业内已出现多种技术路线,但共同目标是一致的:让 AI 不只生成内容,而是建立对世界状态及其变化规律的内部表征能力。

在开放日圆桌论坛环节,东方富海合伙人王兵、微软亚洲研究院首席研究员傅建龙、阿里云资深解决方案总监宁江彬、智象未来技术合伙人潘滢炜与 AI 闹发起人洪鹄,围绕“从多模态到全模态,构建世界模型,走向 AGI ”展开对话。嘉宾们分别从 AI 投资、具身智能、AI 基础设施和原生全模态技术实践等角度,分享了对世界模型发展路径的判断。

与会嘉宾认为,AI 正在从“生成内容”走向“理解世界”。视觉生成、Agent、具身智能和多模态模型的汇合,背后指向同一个关键能力:模型能否理解不同模态下的环境状态、预测状态变化,并形成统一的跨模态表征。

因此,视觉生成并不只是内容生产工具。它天然需要学习空间结构、物体关系、运动轨迹和状态变化,也具备向世界模型延展的基础。原生全模态架构的价值,正是在于为图像、视频、文本、音频乃至动作和具身数据提供统一建模框架,让模型从单点模态能力走向更完整的世界建模能力。

半月内完成多轮融资,三大Agent产品持续扩展商业生态

不久前,智象未来宣布完成超5亿元融资,股东阵容涵盖安徽省产投、合肥产投、东方富海等顶级投资机构。开放日上,智象未来透露公司融资持续提速,半月内再度完成由深创投、金浦投资、财鑫资本、复聚资本等参与的新一轮融资。

公开资料显示,金浦投资是上海金融发展投资基金的管理人,首期基金投资项目已有 13 家通过 IPO 或并购实现上市,在算力基础设施、大模型和智能体应用等多个 AI 前沿领域深度布局;财鑫资本是常德市属国企财鑫集团旗下的核心产业投资平台,致力于以资本力量服务实体经济、推动科技创新,聚焦于人工智能、具身智能等具有明确产业落地前景的硬科技领域投资;复聚投资专注于前沿细分领域领航企业的价值发现,在智能制造、新能源、新材料、生物医药领域、人工智能等战略新兴产业布局广泛。随着深创投、金浦投资、财鑫资本、复聚资本等新投资方的进入,智象未来已形成了由安徽、上海、湖南、杭州等多方产业基金持续跟进,深创投、东方富海、峰华资本、敦鸿资本等头部市场化 VC 参与的多元化资本阵容。

融资节奏加快的同时,智象未来打造了以模型为根基,以智能体应用做轮子,驱动技术落地变现的‘模型+智能体’双轮驱动战略,并形成了一套清晰的“1+1+3”业务架构:底层是1个 HiDream 系列大模型,中间是1个能力中台(HiHarness 企业服务平台),上层智能体应用则覆盖商业营销、影视创作和社媒创作 3 大核心场景。

开放日现场,智象未来三位产品负责人分别介绍了智能体应用产品进展,全方位展示了公司在商业化落地上的“即战力”。商业营销智能体 HiBurst,已覆盖跨境电商内容营销、媒体运营和应用出海等场景,支持 TikTok、Meta、抖音、小红书等主流平台,并成为 TikTok 官方 top 5 服务商,年生产电商营销视频超过百万条,覆盖 GMV 已超亿元;全球首个专业级 AI 影视创作与协作智能体——“帧赞”,以电影级画质生成和“创意-分镜-成片”全流程打通的核心能力,为专业影视创作团队提供了兼顾高品质和高效率的协作创作工具。该平台目前已累计制作短漫剧超过 5000 分钟,平台入驻专业团队与生态合作伙伴超千家;社媒创作智能体 vivago 近日完成产品升级,凭借端到端的长思考能力稳定输出分钟级故事视频能力,火速登上 Product Hunt 日榜第一,目前,vivago 已覆盖 100 多个国家及地区的超 4000 万专业及个人用户。

活动现场,智象未来宣布与影视行业领军企业上海电影集团上影新视野基金、国内最大的营销传播集团蓝色光标、AI 影视头部企业北京捷成世纪、跨境医疗服务领域领先企业倍尔健康达成战略合作。各方将围绕大模型能力调用、智能体应用开发、行业场景共建等方向开展深度合作,共同推动原生全模态大模型在影视创作、商业营销、跨境电商、IP 运营、医疗健康等多个赛道的产业化落地。

从视觉生成,到构建世界

从 HiDream-O1-Image-Pro 的发布,到三大智能体产品的落地,再到与产业伙伴的生态合作,智象未来正在形成一条清晰路径:以原生全模态架构为基础,持续提升视觉生成能力,并进一步向世界模型所需要的统一理解、生成和预测能力演进。

这也是智象未来所强调的“ Imaging the World ”:不只停留在“生成视觉内容”,而是通过原生全模态建模,让 AI 逐步具备理解世界、生成世界、构建世界的能力。未来,智象未来将继续围绕 UiT 原生全模态架构,推动模型、智能体和产业场景协同演进,向更完整的世界模型迈进。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。