苹果连发3项AI研究，推进空间计算与Vision Pro头显方向

IP属地中国·北京 编辑：冯璃月 TechWeb 时间：2026-05-12 10:36:31

5 月 12 日消息，科技媒体 Appleinsider 昨日（5 月 11 日）发布博文，报道称基于最新公开的 3 项研究，苹果仍在积极推进空间计算和 Vision Pro 头显。
4 月援引 MacRumors 媒体报道，苹果公司内部已搁置研发新款 Vision Pro，团队重心转向 Siri 和 AI 智能眼镜。
但从最新公示的研究论文来看，苹果公司并未放弃 Vision Pro 头显项目，本轮公开了 3 项研究，分别涉及多模态大模型空间推理评测、美式手语视频标注，以及 3D 头部重建。
其中最直接的一项，是苹果在机器学习博客发布的《From Where Things Are to What They’re For：Benchmarking Spatial-Functional Intelligence for Multimodal LLMs》。
这篇论文提出 SFI-Bench，用来测试多模态大模型是否既看懂空间布局，也理解物体“能做什么”。原文提到，这套视频基准包含 134 段室内视频扫描，并整理出 1555 道专家标注问题。
SFI-Bench 不只问模型“这是什么、在哪里”，还会追问“它怎么用、出了故障怎么办”。例如，模型可能需要从柜子里找出同品牌数量最多的一组瓶子，理解洗衣机当前程序如何取消，或者判断电视遥控器的用途。相比只测空间识别的旧方法，这更接近日常家庭场景，也更像未来空间助手需要处理的真实任务。
测试结果显示，Google Gemini 3.1 Pro 总分最高，OpenAI GPT-5.4-High 排名第二，Gemini-3.1-Flash-Lite 排名第三。
但论文也点出共同短板：几乎所有模型都不擅长“带条件的全局计数”，并且在空间记忆、功能知识整合，以及把眼前画面和外部知识连起来这几件事上仍有明显限制。
手语论文《Bootstrapping Sign Language Annotations with Sign Language Models》尝试用 AI 自动生成候选标注，减少数百小时手工标注成本。
原文称，团队建立了近 500 条人工英文字词到术语标注，并扩展到超过 300 小时 ASL STEM Wiki 和 7.5 小时 FLEURS-ASL 数据。其手指拼写模型在 FSBoard 上达到 6.7％ CER，在 ASL Citizen 数据集上达到 74％ top-1 准确率。
第三项研究《Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures》则聚焦 3D 头像重建。
苹果提出 HeadsUp 方法，可从大规模多摄像头采集中重建高质量 3D Gaussian 头部模型。测试使用了一个超过 10000 名受试者的内部数据集，规模比现有多视角人头数据集高一个数量级。这可能和 Vision Pro 的 Persona，或 visionOS 中更自然的人脸捕捉与表情渲染有关。
苹果公司全球营销高级副总裁格雷格 · 乔斯维亚克（Greg Joswiak）此前表示，Vision Pro 展示了数字世界与物理世界融合的未来形态，这种融合具有必然性。当被问及具体时间表时，他坦言无法预测“空间计算”何时能成为主流，但坚信这一方向不可逆转。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

360首席科学家潘剑锋：智能体安全的核心，是驾驭AI不确定性

OpenAI算力“内战”：Codex如何鲸吞Token，改写内部资源分配规则

AI协同办公迎“四国杀”！金山办公副总裁王冬：付费逻辑转向企业为价值买单

三年改名八次后，字节前员工创办的演语科技估值涨到20亿美金

飞书广州峰会落地，聚焦制造业AI协作升级

OpenAI发布GPT-5.6系列模型，应美政府要求限量开放，直言不应成为长期默认做法

全站最新

广东高温下货车供电怎么选？适配性与耐受力是关键考量

360首席科学家潘剑锋：智能体安全的核心，是驾驭AI不确定性

OpenAI算力“内战”：Codex如何鲸吞Token，改写内部资源分配规则

AI协同办公迎“四国杀”！金山办公副总裁王冬：付费逻辑转向企业为价值买单

热门推荐

中信股份成立企管合伙企业

从旷视“5号员工”到极豪掌门人，90后清华学霸陈可卿携极豪冲刺IPO

DeepSeek大扩军：从模型突破到平台化，如何平衡规模与锋利？

360首席科学家潘剑锋：智能体安全的核心，是驾驭AI不确定性

OpenAI算力“内战”：Codex如何鲸吞Token，改写内部资源分配规则

AI协同办公迎“四国杀”！金山办公副总裁王冬：付费逻辑转向企业为价值买单

三年改名八次后，字节前员工创办的演语科技估值涨到20亿美金

飞书广州峰会落地，聚焦制造业AI协作升级

OpenAI发布GPT-5.6系列模型，应美政府要求限量开放，直言不应成为长期默认做法

黄锐名下工作室以蛋黄酱命名

大疆跨界新作：ROMO 2系列扫地机器人携无人机技术开启地面清洁新篇章

智元机器人数采2.0体系发布，为西南具身智能产业规模化发展添新动力

美股芯片股全线大跌，安森美半导体跌超20%，中概股走势分化，迅雷涨超10%

全球性能第一！国家超算互联网存储系统登顶

腾讯音乐研究院发布《2025华语数字音乐年度白皮书》，深度解读AI与超级粉丝趋势