实测GPT-5:写作坠入谷底,编程一骑绝尘
GPT-5在SWE-bench Verified中得分74.9%,在Aider Polyglot得分88%。
“观众”们的反应有点微妙......
GPT-5内测抢先公布:日常推理首次击败人类,编程数学科学问题能力都很强
有一点可以肯定的是:GPT-5,只是新战局的起点,而不是终点。
开胃前菜已经分量充足,期待正餐上桌
新的开源之战
Cursor CEO最新访谈:编程会消失,未来IDE不再是工具,而是一个会写、会跑、会自我优化的智能体
OpenAI发布开源模型“王者归来”,DeepSeek剧情会反转吗
OpenAI时隔6年再度开源!两款推理模型,o4-mini级,手机和笔记本能跑
Claude 4.1 发布:更强的Agent、代码和推理
10/31 16:58
10/31 16:56
10/31 16:55