据报道,苹果提出“多token预测”(MTP)技术,在不牺牲输出质量的情况下,可将大语言模型响应速度提升2至3倍,特定场景下最高可达5倍。传统大语言模型逐个输出token,速度受限。苹果研究发现模型内部蕴含对后续多个词的潜在判断能力,据此提出MTP框架,支持模型一次生成多个词。该技术通过“掩码”token作为占位符,并行推测后续多个词,并在推测结果与标准自回归解码结果不符时自动回退,确保输出质量。实验基于开源模型Tulu3 - 8B进行,训练其最多推测8个后续token,在问答和对话等通用任务中,响应速度平均提升2至3倍;在代码生成、数学推理等结构化场景中,提速可达5倍。
苹果MTP技术:大语言模型响应速度最高提升5倍
IP属地 中国·北京
编辑:钟景轩 三言科技 时间:2025-08-09 12:19:13
免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。
全站最新
热门推荐
- 腾讯在上海成立启善投资公司 注册资本1000万
- 侵权辛巴网友被执行5257元
- 锤子科技近期被执行2142万
- 氢能从试点迈向破局 全国现存氢能相关企业超3900家
- 智慧葡萄种植打造“中国甜” 现存葡萄相关企业超5.6万家
- 深圳顺丰航空产业地产管理公司增资至4.3亿 增幅约138%
- 何秋亊名下海南工作室注销
- 续面涉事饭店已成立四年
- 比亚迪公布车辆漂移专利 可降低漂移门槛提高驾驶乐趣
- 宇树科技新专利可提高机器人复杂环境作业能力
- 协创数据在乌兰察布成立大数据公司 注册资本1亿
- 万达集团及万达地产等被执行4亿
- 侵权王鹤棣传媒公司被限消
- 赛力斯碰撞解锁专利获授权 可减少因车门无法打开而导致伤亡
- 于东来实控18家存续企业