阿里千问推出DeepPlanning基准测试，顶尖AI模型仍有短板

IP属地中国·北京 IT之家 时间：2026-01-31 01:07:22

IT之家 1 月 30 日消息，阿里千问今天在公众号平台发文，宣布推出新一代 Agent 基准测试 DeepPlanning。

据介绍，DeepPlanning 与传统的推理任务截然不同，要求 AI 在面对现实世界的复杂规划时通盘考虑，不能只专注于局部。
例如：多日旅行规划要精确到分钟级排期，同时守住时间、预算的硬上限；复杂购物场景要懂得叠加优惠券、知道如何动态组合商品才能满减，以实现整体价格最优。而且这些“硬要求”不只是让 AI 单纯在哪一步完成就好，必须贯穿整个计划始终。

最终实测结果表明，即使是目前顶尖的 GPT-5.2、Claude 4.5、Gemini 以及 Qwen 3 模型，在全局优化以及长周期一致性上仍存在部分短板，距离真正成为拥有 100% 自主决策能力的“行动派”还有一定距离。

值得注意的是，阿里千问还在 Hugging Face 和 ModelScope 平台开源了这款基准，IT之家附上链接如下：
HuggingFace：https://huggingface.co/datasets/Qwen/DeepPlanningModelScope ：https://www.modelscope.cn/datasets/Qwen/DeepPlanning

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

Meta高管：未来一两年AI使用成本或超员工工资，公司或设词元上限

上传用户数据事件后，马斯克宣布开源Grok Build编程AI智能体

芯片股低迷闪迪美光重挫，科技巨头救场苹果涨4%，谷歌涨超3%，中概股闪耀阿里巴巴大涨

人形机器人公司逐际动力完成近2亿美元Pre-IPO轮融资，用于大小脑融合技术突破和产品化

努比亚全球首款AI智能体手机局部外观公布，或采用横向镜组设计方案

消息称苹果正寻求收购人工智能芯片企业

全站最新

Meta高管：未来一两年AI使用成本或超员工工资，公司或设词元上限

上传用户数据事件后，马斯克宣布开源Grok Build编程AI智能体

芯片股低迷闪迪美光重挫，科技巨头救场苹果涨4%，谷歌涨超3%，中概股闪耀阿里巴巴大涨

人形机器人公司逐际动力完成近2亿美元Pre-IPO轮融资，用于大小脑融合技术突破和产品化

热门推荐

Meta高管：未来一两年AI使用成本或超员工工资，公司或设词元上限

上传用户数据事件后，马斯克宣布开源Grok Build编程AI智能体

芯片股低迷闪迪美光重挫，科技巨头救场苹果涨4%，谷歌涨超3%，中概股闪耀阿里巴巴大涨

人形机器人公司逐际动力完成近2亿美元Pre-IPO轮融资，用于大小脑融合技术突破和产品化

努比亚全球首款AI智能体手机局部外观公布，或采用横向镜组设计方案

消息称苹果正寻求收购人工智能芯片企业

首发U型三折叠！华为专利图揭晓Mate XT2折叠方式

苹果一芯难求！A18 Pro产能不足：MacBook Neo出货量暴降40%

上传用户代码事件后，马斯克宣布开源Grok Build编程AI智能体工具

OpenAI前女CTO创业发布首款AI模型：借鉴中国技术主打成本和性能平衡

我国上半年用电量公布超1倍于美国全年：美媒惊呼芯片多先进没电都没用

OpenAI首款联名硬件：Codex Micro键盘登场，灵活操控AI智能体

SpaceX股价高位下跌40%，市值已缩水超1万亿美元

阿里巴巴美股盘前大涨近6%

三七互娱：世界杯决赛日全员带薪半日假