研究证实：AI大模型跨多轮对话任务表现不佳，性能最高降39%

IP属地中国·北京 IT之家 时间：2026-03-01 08:11:44

IT之家 3 月 1 日消息，据 THE DECODER 报道，新一代大语言模型（从 GPT-5 及后续版本开始）在任务需要跨多轮对话完成时，表现依然不佳。研究员菲利普 · 拉班（Philippe Laban）及其团队在代码、数据库、操作指令、数据转文本、数学计算、文本摘要这六大任务上对现有模型进行了测试。当信息被拆分到多条消息中（分片式），而非集中在单次提示词里（拼接式）时，模型性能会显著下降。

IT之家注意到，更新的模型表现略好一些，性能降幅从 39% 缩小到 33%，但问题远未解决。Python 任务的提升最为明显，部分模型仅损失 10%–20% 的性能。拉班认为，实际场景中的性能损失可能更严重，因为测试只使用了简单的用户模拟；如果用户在对话中途改变想法，性能下降幅度可能会更大。
原始研究发现，调低温度值（temperature）这类技术微调无法解决这一问题。研究人员建议：一旦出现异常，重新开启一段新对话，最好先让模型把所有请求总结一遍，再用这份总结作为新对话的起点。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

品区·周末侃上海商圈探索“外卖摆渡”，能解决“最前端100米”难点吗

腾讯智能体集中亮相2026 WAIC，携“AI Buddy”共创数智未来

腾讯联合越疆，“物理AI”走进制造工厂｜直击WAIC

ASML拟向全球约4.5万名员工发放2万欧元股票奖励，2030年解禁

WAIC 2026大洗牌：机器人遍地，Agent干活，国产算力崛起，基础大模型只剩18家

苹果多款iPhone在日本市场涨价，最高涨幅达11.3%

全站最新

品区·周末侃上海商圈探索“外卖摆渡”，能解决“最前端100米”难点吗

腾讯智能体集中亮相2026 WAIC，携“AI Buddy”共创数智未来

腾讯联合越疆，“物理AI”走进制造工厂｜直击WAIC

ASML拟向全球约4.5万名员工发放2万欧元股票奖励，2030年解禁

热门推荐

中国AI新星Kimi K3崛起海外科技股与半导体市场承压波动

WAIC 2026首日观察：AI创新落地，从“炫技”到“实用”的跨越

品区·周末侃上海商圈探索“外卖摆渡”，能解决“最前端100米”难点吗

腾讯智能体集中亮相2026 WAIC，携“AI Buddy”共创数智未来

腾讯联合越疆，“物理AI”走进制造工厂｜直击WAIC

ASML拟向全球约4.5万名员工发放2万欧元股票奖励，2030年解禁

WAIC 2026大洗牌：机器人遍地，Agent干活，国产算力崛起，基础大模型只剩18家

苹果多款iPhone在日本市场涨价，最高涨幅达11.3%

智己焦樵回应部分经销商经营异常：能明确到用户订单的会兜底

新豆包手机备货数十万台，AI不再硬操作头部应用

遭AI针对？美法官驳回26名Meta员工阻止裁员请求

Uber以148亿美元收购外卖平台Delivery Hero

红米新机来袭：7英寸大屏搭配8K级大电池，新功能加持现已火热开售

首批L3级AI终端测试结果出炉联想42款产品领跑行业占比超六成

2.8万亿、全球最大、马斯克第二次点赞：Kimi K3凭什么刷屏海内外