全球首个原生多模态架构 NEO 横空出世，视觉与语言完美融合

IP属地中国·北京 编辑：顾青青 Chinaz 时间：2025-12-09 18:25:37

在人工智能领域的最新动态中，Ilya Sutskever 的最新声明掀起了一场巨变。他表示，单靠扩大模型规模的时代已经结束，未来的突破将来自于更智能的架构设计。对此，整个 AI 界都感受到了深刻的转变，因为过往几年的发展路径似乎陷入了数据与参数的 “唯规模论”，然而这一方式正面临逐渐减弱的收益。
在这一背景下，由中国研究团队打造的开源原生多模态架构 NEO 应运而生。与之前主流的多模态模型，如 GPT-4V 和 Claude 3.5 等的拼接方式不同，NEO 从根本上重新定义了视觉与语言的关系。传统的多模态模型通常将视觉编码器与语言模型分开，二者在数据层面粗暴地拼接在一起，导致信息传递不够顺畅。而 NEO 则通过创建一个统一的模型，使视觉与语言从一开始就紧密结合，犹如两者血脉相连。
NEO 的核心创新在于三大技术突破。首先，它引入了原生图块嵌入技术，允许 AI 直接从像素开始构建高保真的视觉表征，提升了图像细节的捕捉能力。其次，NEO 开发了原生三维旋转位置编码，利用高频和低频的不同组合，准确地处理图像和文本中的位置关系，形成一个智能的时空坐标系。最后，原生多头注意力机制使得视觉与语言的信息可以在同一个框架下进行交流，极大增强了模型对复杂语义的理解能力。
令人惊讶的是，NEO 在仅用传统模型十分之一的训练数据的情况下，便在多项评测中追平甚至超越了许多旗舰级对手。这一成果不仅证明了原生架构的有效性，也标志着 AI 模型发展的新方向。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

万亿巨头“满血回归”，大模型江湖格局重塑？

2026年现阶段成都企业如何选择靠谱的小红书获客服务团队

裁员12万还不够？美科技白领与AI展开生存赛，学者建议缩短周工时保就业

老外实测特朗普T1手机：软硬件均有明显短板

OpenAI为何打算推迟IPO？

苹果游说美政府放行长鑫DRAM供应分析师称难以缓解涨价与供给

全站最新

万亿巨头“满血回归”，大模型江湖格局重塑？

2026年现阶段成都企业如何选择靠谱的小红书获客服务团队

裁员12万还不够？美科技白领与AI展开生存赛，学者建议缩短周工时保就业

老外实测特朗普T1手机：软硬件均有明显短板

热门推荐

图灵奖得主加盟，曹操出行加速挺进“AI原生”新赛道

AI大模型狂飙的代价：苹果用户或为硬件全面涨价买单

万亿巨头“满血回归”，大模型江湖格局重塑？

2026年现阶段成都企业如何选择靠谱的小红书获客服务团队

裁员12万还不够？美科技白领与AI展开生存赛，学者建议缩短周工时保就业

美国拟解禁Anthropic旗下AI模型Fable 5，公众访问最早本周恢复

老外实测特朗普T1手机：软硬件均有明显短板

OpenAI为何打算推迟IPO？

苹果游说美政府放行长鑫DRAM供应分析师称难以缓解涨价与供给

正面硬刚iPhone 18 Pro！华为Mate 90系列9月发布：首发麒麟2026+鸿蒙7

“劫持式”开屏广告，又回来了？

小鹏MONA L03定档7月2日中国首秀，实车预计自7月1日起到店

厦门国升产业链创新基金登记成立出资额10亿

广州华立学院“特殊规定”：小米汽车被拒之门外其他车辆预约即入

岚图追光S纯电轿跑SUV登场，华为智驾赋能，与小米YU7错位竞争展实力