今天分享的是:大模型专题:2025年大模型智能体开发平台技术能力测试研究报告
报告共计:21页
《大模型专题:2025年大模型智能体开发平台技术能力测试研究报告》对阿里云百炼、腾讯云智能体开发平台、扣子、百度智能云千帆四个典型平台的技术能力进行了测试,围绕RAG能力、工作流能力、Agent能力三个核心维度展开。RAG能力测试涵盖文本问答、结构化数据问答、图文问答,各平台在文本处理上表现优异,单文档及多文档问答准确率较高,但拒答与澄清处理存在差异,腾讯云对知识库外问题实现100%拒答;结构化数据问答中,百度智能云千帆在复杂查询场景表现稳定,多表关联查询准确率较高;图文问答中,阿里云百炼、腾讯云及扣子图片识别能力较强,但配图输出率分化。工作流能力以订单修改为核心场景,测试参数提取、异常回退等,各平台端到端准确率在61.5%-69.2%,腾讯云意图识别准确率达93.3%,参数提取是主要差异点,整体具备基础可用性但需优化。Agent能力测试工具调用,各平台单工具调用完成率较高(83%-92%),多工具协同及提示词调用有提升空间,腾讯云表现较均衡,存在流程断点、技术稳健性不足等问题。总体而言,平台基础能力趋同但路径分化,未来需在场景深度适配、技术链厚度构建、生态广度拓展上持续发力,以实现从实验性应用向生产级交付跨越。
以下为报告节选内容