当前位置: 首页 » 资讯 » 科技头条 » 正文

智象未来发布200B参数原生全模态图像大模型,开启“从生成内容到理解世界”新征程

IP属地 中国·北京 编辑:沈瑾瑜 Chinaz 时间:2026-05-21 16:32:07

在北京举办的首届开放日上,智象未来正式发布了基于新一代原生全模态模型架构——Unified Transformer(UiT)打造的图像大模型 HiDream-O1-Image-Pro。这款参数量超过 2 千亿的原生全模态大模型,在多个权威基准测试中刷新了SOTA(最高水平)纪录。同日,智象未来宣布完成半个月内的第二轮融资,由深创投、金浦投资等多家顶级机构加持,再次印证了资本市场对“原生全模态”技术路径的高度认可。

核心技术突破:从“模态拼接”到“原生统一”

当前视觉生成领域多采用“VAE+独立语言模型编码”的碎片化拼接范式,难以在复杂语义理解与细节还原上取得突破。智象未来通过 UiT 架构,将原始图像像素、文本标记与任务条件纳入统一的连续共享标记空间,实现了真正的“底层表征融合”。

HiDream-O1-Image-Pro: 该模型为闭源版本,参数规模超200B。它不仅具备顶级的文生图能力,更在复杂文字渲染、指令编辑与多主体个性化生成等领域树立了行业新标杆。

开源标杆: 其采用同源架构的8B参数版本此前已在全球评测平台 Artificial Analysis 的文生图榜单中登顶开源模型全球第一,且是前 20 名中参数量最小的版本,充分验证了 UiT 架构卓越的可扩展性。

战略重心:以“原生全模态”构建世界模型

智象未来创始人兼CEO梅涛指出,行业内所谓的“多模态”多为“单模态拼接”,而智象未来追求的是“原生全模态”。他认为,通过在模型架构初期就刻入“世界的规则”(空间关系、物理定律、因果逻辑),模型才能真正从“生成内容”进化为“理解世界、推理世界、重构世界”,这是实现 AGI(通用人工智能)的必经之路。

业务落地:模型+智能体双轮驱动

在深化底层架构的同时,智象未来构建了“1+1+3”业务架构,通过三大核心智能体应用驱动商业落地:

商业营销智能体 (HiBurst): 已成为 TikTok 官方 Top 5 服务商,年生产电商营销视频超百万条,覆盖 GMV 过亿元。

AI 影视创作智能体 (“帧赞”): 实现了从创意到成片的全流程打通,已累计制作短漫剧超 5000 分钟,吸引超千家专业团队入驻。

社媒创作智能体 (vivago): 支持端到端长思考与分钟级故事视频生成,覆盖全球 100 多个国家及地区的 4000 万用户。

生态共建:迈向 AGI 的产业路径

在开放日现场,智象未来宣布与上影新视野基金、蓝色光标、捷成世纪及倍尔健康达成战略合作,通过深度参与影视创作、跨境电商、医疗健康等赛道,加速模型能力向行业场景的转化。

从视觉生成到构建世界模型,智象未来通过“Imaging the World”的愿景,正致力于通过统一建模框架,让 AI 具备理解不同模态下环境状态及预测变化的能力。随着多元化资本的持续注入与商业生态的快速扩张,智象未来正加速从视觉技术提供商向通用世界模型构建者的角色转变。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。