当前位置: 首页 » 资讯 » 科技头条 » 正文

谷歌推出DiffusionGemma:文本生成四倍提速,主攻本地实时应用场景

IP属地 中国·北京 编辑:钟景轩 大力财经 时间:2026-06-11 06:22:11

谷歌发布开源实验性模型DiffusionGemma,采用文本扩散技术,在专用GPU上实现最高四倍的文本生成加速,为开发者在低延迟本地工作流场景中提供了新的技术路径。

这一模型基于谷歌Gemma 4系列架构与Gemini Diffusion研究成果构建,以Apache 2.0许可证开源发布。

与传统自回归大语言模型逐词生成的方式不同,DiffusionGemma每次前向传播可并行生成256个词元,在单张NVIDIA H100上实测输出速度超过每秒1000个词元,在NVIDIA GeForce RTX 5090上则超过每秒700个词元。

谷歌同时指出,DiffusionGemma目前仍处于实验阶段,整体输出质量低于标准Gemma 4模型。对于追求最高质量输出的生产应用,谷歌建议继续部署标准Gemma 4。

架构创新:从"打字机"到"印刷机"

DiffusionGemma的核心技术突破在于改变了语言模型使用硬件的方式。

传统语言模型如同打字机,从左至右逐词生成文本。这一机制在云端服务器上效率尚可,因为服务器可将数千条用户请求批量处理、共享算力。但当模型在单用户本地环境中运行时,逐词生成的方式使GPU大部分时间处于等待状态,算力严重闲置。

DiffusionGemma采用文本扩散方法,将上述瓶颈从内存带宽转移至计算侧。

模型首先在"画布"上生成一组随机占位词元,随后进行多轮迭代精炼——在每一轮中锁定已确认的词元,并以其为上下文线索修正其余内容,最终收敛为完整段落输出。谷歌将这一过程比喻为"将单台打字机升级为同时印刷整页文字的大型印刷机"。

值得注意的是,这一速度优势具有明确的适用边界。谷歌表示,在高并发云端服务场景中,自回归模型可通过批量处理充分利用算力,DiffusionGemma的并行解码优势递减,反而可能推高服务成本。其吞吐量优势主要体现在单张加速器上的低至中等批次规模场景。

低硬件部署门槛,支持双向注意力与自纠错

DiffusionGemma为26B参数的混合专家(MoE)模型,但推理时仅激活3.8B参数。经量化处理后,模型可在18GB显存的消费级高端GPU内运行,降低了本地部署的硬件门槛。

在功能特性上,模型支持双向注意力机制,每个词元在生成时可关注段落内所有其他词元。谷歌认为这一特性在非线性生成任务中具有明显优势,具体包括行内编辑、代码填充、氨基酸序列生成及数学图形构建等场景。

模型还具备智能自纠错能力,可在输出过程中对整段文本进行实时评估和修正。

第三方AI工具公司Unsloth对DiffusionGemma进行了微调,成功使其完成数独求解任务——这类需要前瞻推理的问题对传统自回归模型构成挑战,而DiffusionGemma的双向注意力机制使其处理此类任务更为自然。

定位与局限:实验探索而非生产替代

谷歌明确将DiffusionGemma定位于研究人员和开发者,而非直接替代现有生产模型。其目标用例集中于对速度敏感的本地交互工作流,例如文本实时编辑、快速内容迭代以及非线性文本结构生成。

尽管速度优势显著,但谷歌坦承DiffusionGemma在输出质量上仍逊于标准Gemma 4,并在基准测试中呈现出明确的能力取舍关系。这意味着对于需要高精度输出的商业应用,该模型目前尚不具备替代现有主流模型的条件。

文本扩散技术本身并非新概念,AI研究界已探索多年,但将其应用于大规模模型长期面临挑战。

DiffusionGemma的发布标志着谷歌在将这一研究方向推向实用化方面迈出了可量化的一步,其后续能否在质量与速度之间取得更优平衡,将是市场持续关注的焦点。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新