当前位置: 首页 » 资讯 » 科技头条 » 正文

全球首个原生多模态架构 NEO 横空出世,视觉与语言完美融合

IP属地 中国·北京 编辑:顾青青 Chinaz 时间:2025-12-09 18:25:37

在人工智能领域的最新动态中,Ilya Sutskever 的最新声明掀起了一场巨变。他表示,单靠扩大模型规模的时代已经结束,未来的突破将来自于更智能的架构设计。对此,整个 AI 界都感受到了深刻的转变,因为过往几年的发展路径似乎陷入了数据与参数的 “唯规模论”,然而这一方式正面临逐渐减弱的收益。

在这一背景下,由中国研究团队打造的开源原生多模态架构 NEO 应运而生。与之前主流的多模态模型,如 GPT-4V 和 Claude 3.5 等的拼接方式不同,NEO 从根本上重新定义了视觉与语言的关系。传统的多模态模型通常将视觉编码器与语言模型分开,二者在数据层面粗暴地拼接在一起,导致信息传递不够顺畅。而 NEO 则通过创建一个统一的模型,使视觉与语言从一开始就紧密结合,犹如两者血脉相连。

NEO 的核心创新在于三大技术突破。首先,它引入了原生图块嵌入技术,允许 AI 直接从像素开始构建高保真的视觉表征,提升了图像细节的捕捉能力。其次,NEO 开发了原生三维旋转位置编码,利用高频和低频的不同组合,准确地处理图像和文本中的位置关系,形成一个智能的时空坐标系。最后,原生多头注意力机制使得视觉与语言的信息可以在同一个框架下进行交流,极大增强了模型对复杂语义的理解能力。

令人惊讶的是,NEO 在仅用传统模型十分之一的训练数据的情况下,便在多项评测中追平甚至超越了许多旗舰级对手。这一成果不仅证明了原生架构的有效性,也标志着 AI 模型发展的新方向。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新