据报道,苹果提出“多token预测”(MTP)技术,在不牺牲输出质量的情况下,可将大语言模型响应速度提升2至3倍,特定场景下最高可达5倍。传统大语言模型逐个输出token,速度受限。苹果研究发现模型内部蕴含对后续多个词的潜在判断能力,据此提出MTP框架,支持模型一次生成多个词。该技术通过“掩码”token作为占位符,并行推测后续多个词,并在推测结果与标准自回归解码结果不符时自动回退,确保输出质量。实验基于开源模型Tulu3 - 8B进行,训练其最多推测8个后续token,在问答和对话等通用任务中,响应速度平均提升2至3倍;在代码生成、数学推理等结构化场景中,提速可达5倍。
苹果MTP技术:大语言模型响应速度最高提升5倍
IP属地 中国·北京
编辑:钟景轩 三言科技 时间:2025-08-09 12:19:13
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- “沪九条”落地半年,MCN进阶“价值深耕”
- 马斯克最新访谈:瓦特是未来货币,电力优势将令中国AI算力一骑绝尘
- 瞄准AI加速药物研发,英伟达与礼来联合建实验室,投资10亿美元
- 嫦娥六号月壤又有新发现:巨型撞击或抑制月背火山活动
- 收购再生波折 派拉蒙起诉华纳兄弟要求披露其与奈飞交易细节
- 2026大模型赛道新年启示:在20%的胜率下,笨笨地坚持
- 网易传媒:2026人机共智·创变未来:千梦引擎AI内容营销白皮书
- 刷小红书也要花钱了?
- 当腾讯姚顺雨交锋阿里林俊旸:两个90后,两条AI路
- “沪九条”落地半年,MCN进阶“价值深耕”
- 字节的“反Agent”战争,如何大音希声?
- 马斯克深度访谈:2026年实现AGI
- 厦门小程序开发性价比高厂家
- AI系统性引入日常诊疗?张文宏表态持保留意见
- 2025年中国乘用车均价回落 新能源价格下探燃油车趋稳





京公网安备 11011402013531号