据报道,苹果提出“多token预测”(MTP)技术,在不牺牲输出质量的情况下,可将大语言模型响应速度提升2至3倍,特定场景下最高可达5倍。传统大语言模型逐个输出token,速度受限。苹果研究发现模型内部蕴含对后续多个词的潜在判断能力,据此提出MTP框架,支持模型一次生成多个词。该技术通过“掩码”token作为占位符,并行推测后续多个词,并在推测结果与标准自回归解码结果不符时自动回退,确保输出质量。实验基于开源模型Tulu3 - 8B进行,训练其最多推测8个后续token,在问答和对话等通用任务中,响应速度平均提升2至3倍;在代码生成、数学推理等结构化场景中,提速可达5倍。
苹果MTP技术:大语言模型响应速度最高提升5倍
IP属地 中国·北京
编辑:钟景轩 三言科技 时间:2025-08-09 12:19:13
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 消息称比亚迪投资人形机器人公司帕西尼正考虑香港IPO
- 足疗市场的盘子,至少是奶茶行业的两倍?
- Codex加入,ChatGPT变成“打工bot”
- 玻璃变AI芯片!科学家造出可编程三维光子神经网络
- 100人,同时进入数字世界:青瞳视觉携手AMD完成百人实时动捕挑战
- 半导体杀出铁娘子:打破国外垄断,年入5亿,冲刺IPO
- 豆包、千问618 购物实测:这届AI还没学会卖货
- 效仿中国模式,韩国最大短剧平台:30%内容替换为AI剧,投放的剧“神似”中国出品
- AI正在创造万亿价值,但GDP里可能没算进去
- 加入龙虾宇宙,微软抄了腾讯的作业
- 滴滴与天津公交共建网约公交:手机下单、车随人动、4区可“滴”
- 英伟达不只想卖显卡了
- 腾讯计划投资DeepSeek100亿元,宁德时代50亿元
- 腾讯跌超4%,未回应微信智能体进展
- 中国专属旗舰!七彩虹RTX 5090D v2 30周年纪念版首曝:全新设计





京公网安备 11011402013531号