当前位置: 首页 » 资讯 » 科技头条 » 正文

恒生电子首席科学家白硕:Agent之难,无关算力、模型与平台

IP属地 中国·北京 雷峰网 时间:2025-12-22 14:16:34


你会关心一个电饭锅能做多少种不同的饭菜,而不是单纯关注炉子的好坏。

作者丨周蕾

编辑丨包永刚

阻碍金融机构把Agent从演示PPT推向核心业务场景的,究竟是什么?是算力成本,是模型能力,抑或是一个万能的开发平台?

在与恒生电子首席科学家白硕的深度对话中,我们得到了一个不太常见的答案:以上都不是最要紧的。

白硕早年间在中科院计算所从事前沿研究,后长期担任上海证券交易所总工程师,主导核心交易系统升级,如今作为恒生电子首席科学家,推动AI技术落地。在经过学术前沿、行业监管核心与产业实践这一完整路径之后,他对当下最热门的Agent话题,给出了具有历史纵深感的、颇具穿透力的洞察。

他指出,缺乏足够“厚度”的业务接口——这里并非指底层技术的API,而是指封装了业务逻辑、能“听懂”业务人员自然语言指令的能力单元——直接导致现在许多Agent项目陷入“读不懂”真实业务需求当中的复杂意图,无法解读有业务语义的自然语言的指令,或者只能对原有系统做简单粗暴的封装。他风趣地提到:你会关心一个电饭锅能支持多少种花式菜谱,至于底下加热组件好不好用,会是你关注的重点吗?

而目前通用型Agent平台的价值,其在整体解决方案中的价值占比有所下降——脱离垂直领域深厚积累的平台,只能是一个“空架子”。他认为花钱做Agent,钱除了花在算力上,更要花在构建和丰富原子化的服务能力上。

在白硕眼中,金融Agent已经走过了“硬编码”“拖拉拽”的阶段,抵达目前人们所熟知的自然语言驱动的阶段,但眼下并非他所认为的技术终局。他告诉雷峰网,未来的架构很可能会是这样:敏态业务都归Agent负责,稳态业务转变为后台的工具、资源或物料,当中会有AI中台进行承接。

这个技术终局听起来或许不够赛博朋克,但它在金融这个极其“苛刻”的世界当中,指明了一条AI Agent落地的生存之路。

以下是雷峰网与白硕的对话,有不改变原意的编辑:

01

Agent的“假门槛”与“真壁垒”

雷峰网:构建Agent过程中,真正有壁垒的是哪个环节?

白硕:接口的“厚度”,这是我认为构建Agent的核心壁垒所在。也就是说,我需求里的复杂意图是用业务语言表达的,但它跟原有应用系统开放出来的接口能不能对得上,是一个问题。

原有的IT系统及应用系统,还没成功转化为Agent可用的工具、资源或物料,原有系统也没有把所有具体业务含义的接口都开放出来。部分开放的接口与业务紧密程度不一,有些接口距离业务较远,以至于自然语言的指令“够不着”业务。Agent也好,开发框架也好,平台或者大模型也好,要让它们充分理解业务意图,现在的接口形式很可能是不合适的。

原来的交互方式下,业务人员能懂我的意图,但这切换到AI时代的交互方式下,让大模型同样懂我,那要看企业上下文的这个“厚度”。“厚度”决定了还有多少技术上的“欠账”,补不上这笔欠账,那业务和技术之间就是一道鸿沟了,这样开发出来的Agent,要么无法满足业务需求,要么带有浓厚的技术痕迹,又或者只是对原有系统的简单迁移,AI组合应用的灵活性也就体现不出来了。

其次要注意“黑话”的存在。垂直领域大量的行话、术语,行业人士懂,但大模型不一定懂。你直接把含有“黑话”的资料交给大模型,它很难充分理解,所以说这里有一个大模型友好的数据治理工作,让垂域数据和资源能与通用AI技术友好对接,读懂彼此之后,那就是如虎添翼了。

雷峰网:可以说,接口开放的“厚度”是Agent发展的“生门”。

白硕:对,只有具备足够的厚度,才能100%容纳并理解用技术或业务语言表达的复杂意图。否则,系统理解不了业务表达,根本不知道怎么做。意图理解是接口开放厚度的关键体现,也是实现技术与业务对接的基础。

业务文件中通常包含大量宏观的业务语言描述,如开户需满足前提条件、检查事项等。这些要求需要用具体的工具和操作来实现,但怎么将业务文件中的字眼落到实际操作?是一个难题。

同时,要充分利用Agent,原有的IT系统需要具备一定的健康度和健壮性,以及较为完备的接口。接口开放得越多,提供的服务就越多;接口越贴近业务,表明在业务层面提供的服务越丰富。

过去也有类似的做法:AI兴起之前,SOA(面向服务的体系架构)是一种新潮的技术架构。SOA要求服务描述和服务发现必须遵循特定协议,但那时自然语言理解技术还不过关,这些协议只能设计得非常死板,很容易导致“即便供给方发布了服务,但需求方并不知道如何描述才能够找到服务”,那就等于是白做了。但现在供给方只要拥有大模型,只要系统真正具备并封装了这些服务,并用自然语言进行描述,需求方就能用语义相近的自然语言找到并利用这些服务。

雷峰网:怎么判断技术厂商的接口开放“厚度”,判断标准是什么?

白硕:我打个比方:做饭一定要炉子加热,但炉子只是个基础工具,就像Agent的编排框架,它是标准化的,没有太多领域相关的技术含量,这些底层技术组件未来可能会变成“白菜价”,非常普及。

真正有价值的,是厂商能提供多少种“菜谱”,也就是他们能支持多少种服务。这些服务才是厂商的看家本领,最终要通过MCP等以标准上下文接口的形式暴露出来。

你会关心一个电饭锅能做多少种不同的饭菜,而不是单纯关注炉子的好坏。如果一个厂商只能提供基本的、通用的功能,就像只会用炉子煮白米饭,那它的竞争力就很有限。但它要是除了煮饭还会煲汤、炖肉,竞争力就会更强。如果这些服务能够通过自然语言被方便地发现和使用,那就说明厂商具备更高的接口开放厚度。

所以,当我们去评判一个厂商在做Agent时的接口开放厚度时,关键在于看他们能提供多少种服务,这些服务是否封装良好,是否能被方便地调用。

雷峰网:讲到底层技术组件的“白菜价”,Agent现在除了算力以外的成本构成是否有很大变化?

白硕:预算构成上,算力还是占大头的,或者说在客户的接受程度范围之内,其他因素和算力相比,都还没法成为决定性因素。这一点我们是无能为力的,它需要大模型算法本身有足够的创新。不过Deepseek不断冲击大模型需要的算力下限,我个人对这件事是觉得很钦佩的,也很有信心算力(价格)一定还可以再降。

在以私部署为主的金融领域,付费的大模型打不过开源的大模型。付费的私有化部署已经很少了,竞争力也不强。开源大模型尤其是千问,在金融机构应用较多。恒生落地案例也是从千问开始的,在这之前开源(效果)最好的有说是Llama,但它本地化之后我们还要做大量的继续训练,这里成本也蛮高的。现在可以说Llama的时代已经过去了。

通用Agent编排平台,我觉得它的价值是在弱化的,至少在整体解决方案中的成本占比正在下降。

还应有一部分钱花在构建和丰富原子化的服务能力上,这是决定Agent是否有用、能否满足多样化需求的关键。

雷峰网:所以您觉得,行业高估了通用Agent编排平台的价值。

白硕:现在一些过于夸大通用Agent编排平台作用,把未来市场份额夸大到几万亿的说法,我是觉得完全不对的。实际上,你只是为场景提供了一个标准化的基础工具而已。

通用的开发平台、编排框架或工具,市场价值并不高,也没有那么大市场份额,两个原因:一是它可能很快标准化,很多厂商都能提供,缺乏门槛;二是垂域仅靠它不够,真正的竞争力不在这方面。

如果你提供一个编排平台,让用户能够自行搭建Agent,这很快就能实现。但关键在于搭建时所使用的“积木块”,即那些已经原子化的服务能力是什么、在哪里。只有将这些能力封装好且足够丰富,才能构建出有用的Agent。

厂商是要基于自己熟悉的资源,去通用平台开发出贴合需求的解决方案,不熟悉的资源,很难有效整合利用。就像恒生自己在金融科技领域有积累有覆盖面,自然有相应资源去开发契合金融Agent。有人觉得通用技术可以颠覆这个路径,可以不通过场景的积累,我觉得这个想法有点一厢情愿了。

02

从雏形到落地,金融Agent的务实路径

雷峰网:金融科技领域其实一直在提数字化、智能化、自动化等等概念,您眼中的Agent是怎样的发展路径?

白硕:金融AI Agent发展应该是有三个不同阶段。

最初的时候,流程性的工作都是通过硬编码的方式写死在程序里。那些内部没有写死的部分,出现临时情况又没有相应的流程来应对,就无法继续操作,必须有人在流程中间手动去衔接。这就很像高速公路上有一些土路或者断头路,得用点“土办法”来连接,离全程自动化还很远。

AI出现之后,我们就进入了一个中间阶段,也就是半自动化阶段。在这个阶段,流程性的衔接不再需要编写代码。像是步骤的先后顺序、条件满足后执行的操作等,这些纯粹流程性的工作,都可以通过拖拉拽的方式在图形界面上配置流程,将具体的步骤设置到中间的具体位置。这个阶段里,节点之间的顺序和业务控制逻辑是清晰的,但节点内部的具体操作过去需要写程序来实现。

现在,我们可以利用自然语言去描述单一步骤的动作,AI能够自动映射到具体的资源和能力。这一步涉及到具体的原子能力,我们需要编写能够映射成这样的能力。同时,有些操作会调用已知的能力,比如可执行的方法或函数,这就需要输入参数和输出参数。这些参数是一些数据要素,我们需要用自然语言来指定使用什么样的数据要素以及取什么样的值。

我们目前所处的阶段还不是最先进的形态,仍然有发展的空间。实际上,我们对于接口和流程的知识并非一片空白,我们拥有大量的文档和描述。这些文档和描述提供了自动化用AI的可能性,如果AI足够强大,我们可以利用它来自动化地拆解流程。这样一来,那些拖拉拽的配置方式也都可以免了。

目前的AI达不到百发百中、一拆解就是对的情况,但我们可以识别到拆解出来不对的部分,动态地去修改它,让它再执行一遍。但要注意,存在前后依赖关系时,一旦中间有一步出错,可能会引发后续一系列的错误。要修改的话,系统必须是未经破坏的,系统操作是可回滚、可重演的,不能出现不可逆的、永久性的不符合预期的改变,或者数据是只读的,避免出现不可逆的、永久性的不符合预期的改变。在大模型调试过程中,调整步骤顺序或修正数据读取权限等问题,这就是ReAct模式,在新型Agent开发工具中很常见。

雷峰网:金融机构对Agent的需求今年以来发生了什么变化?他们“绕开”技术厂商,自建Agent的概率大吗?

白硕:一些金融机构对自己整体资源把控程度和接口暴露程度,是心里有数的。那他们不借助厂商能力,直接采购通用平台走自建,这种是存在的,但大多数还不具备这样的能力。

机构首先还是面向业务需求,但要服务这个需求,我们会共同探讨落地路径和手头的资源,所以构建Agent也并非唯一选择,有时简单的技术方案也能满足需求。

过去两年(2023-2024年)遇到的一种情况是,金融机构的Agent构建多集中在单业务域,资源掌控相对独立,不太有各业务间的数据和底层资源交叉拉通的需求。很多场景,哪怕是同一家金融机构,不同业务背后的大模型、算力都是各自采购部署、各自支持自己的应用。

已经度过这个阶段的机构,就会开始思考:怎么让采购的算力和大模型资源能够交叉支持不同业务,减少重复采购?于是平台化的需求在2025年就被提出来了。

平台化的出现,使得金融机构能够共享底层共性资源,实现跨系统的数据要素统一和业务创新。在AI时代,如果金融机构的接口开放程度足够高,结合Agent开发框架、编排平台或大模型,就可以更轻松地实现这种拉通和创新。这也是我们在与金融机构合作过程中观察到的,比较具有代表性的一种需求。

雷峰网:金融机构应用Agent时,除了算力以外,还可能面对什么比较大的障碍?

白硕:算力是一个问题,再一个是业务适配的“厚度”,也就是怎么让Agent更贴近实际业务需求。这是个长线任务,不是说要全都处理好了才搭场景,可以看需要,逐步开放和搭建所需的接口,先从简单的场景入手,实现短期目标。在这个过程中,接口的积累和业务适配的优化可以持续推进。会顺其自然地通过若干个短线目标,去把长线任务带起来。比起一次性大量投入“备而不用”,“边用边备”的做法在商业角度也比较合理,

雷峰网:Agent加入之后的金融科技解决方案,其付费模式相应地出现了什么变化?

白硕:如果方案中包含Agent的搭建和使用,大模型可能会按token收费。底层接口和物料的使用也可能成为计价单位,这也是可以去畅想的一件事。不过,目前大多数金融机构还是采用传统的项目招投标形式进行合作。

雷峰网:幻觉这个问题,在恒生的金融科技解决方案里可以怎么被抑制?

白硕:幻觉实际上是生成式AI一个固有的缺陷,主要涉及编造数据或接口,但在金融场景里,这种情况是能够一定程度上被控制的。因为不存在的接口是调不出来的,错误的接口也会调用失败。我们的智能体要用来干活儿的,如果数据或接口是虚幻的,那么就会取不到数,接口不对而执行失败。这个场景并不是在聊天,所以幻觉“幻不出来”。

不过,在规划阶段,有可能规划步骤无法执行或执行结果错误,这时候就需要修正,需要ReAct。这就需要确保智能体所依赖的基础能力,都是可逆和可恢复的。如果做不到可逆,这个接口就不能暴露出来给Agent自由规划。

03

终局与未来,金融Agent往何处去?

雷峰网:Agent在金融机构内部,从POC到实际上线是一个很难一概而论的过程。

白硕:对,有些机构会有平台级的诉求,希望智能体具备通用能力,会关注智能体在具体场景中的端到端表现。有些机构会从平台的交叉知识能力和跨域组合能力的角度进行评估。如果业务部门主导,他们通常看重智能体在特定场景中端到端的性能;如果是IT部门主导,他们可能更看重智能体的通用性和跨域组合能力,并且需要有真实的跨域场景来支撑这些能力的验证。

雷峰网:能看到单Agent到多Agent是一个趋势,相信金融场景也不例外,您觉得多Agent需要注意的是什么?

白硕:恒生的解决方案里也有应用多Agent的项目,但一个法人机构内部使用多Agent的必要性相对较弱,是否为不同法人机构之间的跨机构业务往来,是判断是否使用多Agent的标准之一。

在一个法人机构内部,主要涉及的是分工和工作类型问题。有些Agent负责在线检查数据是否满足特定条件,满足后发送信息,另一个Agent响应并采取行动。如果仅仅是简单的上下游关系、串联式的处理,即一件事完成后依次进行另一件事,那么完全可以将这些流程合并为一个Agent来处理。如果有一个统一的场景或口径,即使流程再复杂,理论上也可以将多Agent合并为一个大Agent来完成任务。

然而,如果Agent具有不同的性质,例如需要长期运行、持续探测和判断条件是否满足,满足后才通知其他Agent,那么这种Agent有必要单独存在,并与其他Agent互通。

雷峰网:恒生电子这段时间主要有哪些AI方面的动作?

白硕:恒生电子的AI落地包括两部分,一部分是市场端客户侧的落地,另外一部分就是恒生自身的落地,不单是Agent,是对内对外推进整体的解决方案。

在客户侧,恒生电子积极与国内头部金融机构开展合作,面向投研、投顾、运营等场景打造专业Agent应用,并陆续实现落地。此外,恒生电子也在探索基于实体地图增强的金融垂域智能体开发平台的研发,助力金融机构打造垂域大模型技术体系,子公司恒生聚源也通过“语控万数”数据智能体平台,在厚实的金融数据底座基础上,通过“数据地图”的导航为Agent的搭建提供精准的数据物料供给。

对内方面,比如客服部分,恒生的客户服务系统是七八年前建的,去年做了大升级,给接线的客服“武装”AI能力,升级之后变成自助平台「U+」,能回答业务、系统、运维相关问题,帮接线同事分担压力。

再比如工程,因为恒生面向市场提供的是产品,但从产品到实际落地的解决方案,中间还有相当一部分工作量是定制,这个工程实施也需要大量的知识上和工具上的赋能。工程实施的人员如果有不明白的地方,也不用具体的产品部门的员工来跟他们的对接了,很多问题都沉淀在相应的知识库里。新手员工是非常需要这种工具的,现在AI帮他们扩宽了求助的通道路径。

还有就是内部面向程序员的AI编程能力,这个技术不断在进步,为编程效率的提升提供了很多空间,我们作为软件公司是必须要去拥抱新技术,尽快地让程序员转到AI赋能编程的工作方式上来。因此有很多内部工具的研发来打造最佳实践。随着技术推广,内部研发的流程和组织管理方式也在不断发生变化。

雷峰网:恒生内部也是有上线相应的Agent来应对这些场景。

白硕:Agent简单地说,就是两种用法。其中一种是“干事”,之前的聊天是干事的低级形态,copilot嵌入系统,通过说话的方式来下指令指挥系统干事,但使用的还是原来的系统。Agent的出现,让事情又发生了一个改变,即Agent并非嵌入原来系统,而是一种独立的存在。大模型作为它的大脑,原来系统的各个接口就作为它的“手和眼”,它能感知情况、能取数,对数据分析加工处理,办理业务等等。“聊天”和“干事”的区分,Agent和以往一些数字化应用方案的区分标准之一。

智能地干事的方式,是能够把一些平凡的环节串起来,在这个过程里体现智能。只是告诉Agent一句话,它不会把这句话只对应一个动作,而是说它能够把这个话作为一个复杂意图,拆解成一些简单的意图组合,每一个简单意图对应一个简单的动作,每一个动作有可能调用后台的不同资源、不同系统、不同数据源。

雷峰网:比起“智能地干事”“自动化AI”,金融Agent还有没有下一步发展形态?

白硕:有。我们先给业务做个区分:稳态业务,相对稳定,要求较高;敏态业务,变化频繁、快速响应,多样性、差异性也比较显著。如果用传统实现方式做敏态业务,需要大量定制开发。但AI出现后,对于敏态需求,如果接口是支持的,流程性的知识和资源完备,有业务规范文件和业务逻辑需求描述的话,AI可以处理这部分工作。

我们可能看到的终局,会是什么状态呢?敏态业务都归Agent负责,稳态业务转变为后台的工具、资源或物料。系统被切分为两部分,中间由AI中台或Agent开发平台负责连接。但这绝对不是通用的Agent开发平台,必须与垂域资源配套,否则只是一个空架子,没有价值。

雷峰网:现在Agent还是属于早期比较荒芜的阶段?

白硕:对,现在大家有一种错觉,就是觉得通用智能体开发编排平台会有很大需求。实际上,真正的需求是在接口体系足够丰富、足够深厚之后才会出现。

接口体系怎么积累?应该看机构或企业内部的知识,包括数据和流程等方面。知识分为两个层面:一是硬件层面,即确保所有必要的接口都已具备;二是软件层面,即对流程和接口进行详细描述。这些描述构成了知识库,硬件层面是接口体系的逐步积累。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新