当前位置: 首页 » 资讯 » 科技头条 » 正文

阿里通义千问开源全新文生图模型Qwen-Image

IP属地 中国·北京 编辑:冯璃月 Chinaz 时间:2025-08-05 08:12:32

通义千问系列首次开源了一款名为Qwen-Image的20亿参数多模态扩散变换器(MMDiT)图像生成基础模型。这一创新成果不仅在复杂文本渲染和精确图像编辑方面取得了突破性进展,更是在多个公开基准测试中展现了卓越性能,成为图像生成与编辑领域的新星。

Qwen-Image以其强大的文本渲染能力脱颖而出,支持多行布局、段落级文本生成及细粒度细节呈现,无论是英语还是中文,均能实现高保真输出。例如,在渲染宫崎骏风格的动漫场景时,模型能够精准呈现店铺牌匾、人物姿势及神态,甚至酒缸上的细小文字也清晰可见。同样,在中文对联的渲染中,Qwen-Image不仅准确绘制了左右联和横批,还巧妙融入了书法效果,令人叹为观止。

英文文本渲染方面,Qwen-Image同样表现出色。无论是书店橱窗的展示信息,还是复杂的信息图表,模型都能准确无误地生成文本内容,并巧妙融入整体构图,展现出高度的艺术性和信息性。更令人印象深刻的是,即便在处理更小或更多的文字时,Qwen-Image依然能够保持高度的准确性和清晰度,如准确生成手中纸张上的长段文字,或在玻璃板上完整呈现手写体段落。

除了文本渲染,Qwen-Image在图像编辑方面也展现了非凡实力。通过增强的多任务训练范式,模型在编辑过程中能出色保持一致性,支持风格迁移、物体增减、细节增强及人物姿态调整等多种操作。这使得普通用户也能轻松实现专业级的图像编辑,大大降低了视觉内容创作的技术门槛。

在多个公开基准测试中,Qwen-Image的表现更是令人瞩目。从通用图像生成的GenEval、DPG和OneIG-Bench,到图像编辑的GEdit、ImgEdit和GSO,Qwen-Image均取得了最先进的性能,展现了其在图像生成与编辑方面的全面优势。特别是在中文文本渲染上,Qwen-Image大幅领先现有最先进模型,凸显了其作为先进图像生成模型的独特地位。

目前,Qwen-Image已在魔搭社区、Hugging Face及GitHub等平台开源,并提供了详细的Technical report和Demo展示。用户可通过访问QwenChat(chat.qwen.ai)选择“图像生成”功能,亲身体验这款强大模型的魅力。

ModelScope:https://modelscope.cn/models/Qwen/Qwen-Image

Hugging Face:https://huggingface.co/Qwen/Qwen-Image

GitHub:https://github.com/QwenLM/Qwen-Image

Technical report:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf

Demo:https://modelscope.cn/aigc/imageGeneration?tab=advanced

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。