近日,硅心科技(aiXcoder)助力国内头部通信企业落地企业专属大模型,通过四大创新方案,突破通用大模型“缺乏企业私域知识、不了解业务”的企业落地难题,实现代码生成准确率提升25个百分点(从20%提升至45%),企业知识问答准确率提升18个百分点(从51%提升至69%)。
在通信行业数字化转型加速的背景下,某大型通信公司率先将通用大模型引入生产实践,期望大模型在企业知识问答、单元测试生成、代码生成等真实场景中提供智能辅助,以提升研发效能。
然而实际的应用中,通用大模型因缺乏企业私域知识(如专有协议栈、设备交互逻辑等)而表现不佳:企业知识问答常常答非所问或泛泛而谈;输出缺乏业务逻辑支撑,可用性差;生成的代码需工程师花费大量时间修改。
考虑到RAG(Retrieval-Augmented Generation,检索增强生成)等通用方案难以实现深度业务推理。为此,企业选择与硅心科技(aiXcoder)合作,将私域知识深度注入模型,构建企业专属大模型。
具体方案包括:1)多维度综合评估,选择最优开源模型。2)企业私域数据治理,构建高质量训练语料。3)增量预训练+后训练,训练企业专属大模型。4)以企业真实数据为准,构建企业级测评集。
方案实施过程中仍面临诸多挑战,硅心科技(aiXcoder)通过四大创新技术攻克难题,确保项目落地:
一、创新采用“大模型+小模型”策略。大模型支持通用场景,比如复杂的Agent主流程构建;小模型支持企业特定的领域化问题,在解决企业特定任务时会更精准、高效。两者协同,既保证通用智能,又强化专业深度。
二、构建全链路私域数据治理体系。硅心科技(aiXcoder)对“原始需求-设计-开发-测试”等研发环节的企业数据和文档,进行系统性打通与关联构建,让大模型在执行具体任务时,能参考研发全链路的相关知识,获得全局理解能力,提升输出结果的可用性。
三、创新融入工作流和Agent技术。企业核心业务智能化往往需要端到端的解决方案,但目前市场上并没有能直接解决端到端问题的大模型。为此,硅心科技(aiXcoder)在训练企业专属大模型时,创造性融入了工作流和Agent技术。通过精心设计的任务编排与Agent协同,有效补齐端到端的能力短板。
四、利用AI辅助生成高质量训练数据。企业内部的私域知识和数据关系非常复杂,且数据量不足以支撑模型训练的需求。为此,硅心科技(aiXcoder)在严格遵循业务逻辑和安全规范的前提下,系统梳理和构建数据间的依赖关系,并利用大模型合成大量高质量、符合业务场景的训练数据,有效解决数据瓶颈难题。
最终,企业专属大模型应用到实际任务中后,效果超出预期:企业知识问答的准确率由原来51%,提升至69%;代码生成准确率由原来的20%,上涨至45%。
不仅如此,企业专属大模型训练过程中所形成的数据治理框架、训练路径和方案都具备高度的可复用性。随着底层模型迭代、技术演进和业务需求的变化,企业可以在现有框架上快速适应、调整和新增数据,大幅降低后续训练成本,为企业在长期技术竞争中构建独特优势。