9月12日,阿里通义发布下一代基础模型架构Qwen3-Next和基于新架构的模型Qwen3-Next-80B-A3B,包含两个版本:更擅长理解和执行指令的指令(Insctruct)模型,以及更擅长多步推理和…
OpenAI的研究人员对比了旗下两款模型的表现:老模型o4-mini在测试中正确率虽比GPT-5高2个百分点,但代价是四分之三的问题答错,仅1%的题目会承认“不知道”;而GPT-5则更倾向于直接表示“无法回…
基于 Qwen3-Next 的模型结构,通义团队训练了 Qwen3-Next-80B-A3B-Base 模型,该模型拥有 800亿参数(仅激活 30 亿参数),实现了与 Qwen3-32B dense 模…
9月12日消息,据The Information报道,阿里巴巴和百度正在使用自主研发的芯片来训练人工智能模型。 该媒体引用知情人士的话,称阿里巴巴在今年较早时开始使用其晶片训练较小的模型,使用的是Zhenwu…
阿里和百度都并未完全放弃英伟达,两家公司仍在使用英伟达的芯片来开发其最尖端模型。
这些结果一方面凸显了 Cyber-Zero 的实用价值:它不仅能安全、低成本地生成训练数据,还能让模型通过微调在安全任务上具备实用能力;另一方面也指出了研究方向:如果不针对安全任务进行专门优化,即便是大规模的…
10/31 16:58
10/31 16:56
10/31 16:55