当前位置: 首页 » 资讯 » 科技头条 » 正文

亚马逊云科技-数据智能实践AI与数据平台双向赋能

IP属地 中国·北京 编辑:顾雨柔 时间:2025-07-20 02:04:57

关键字: [亚马逊云科技, 生成式AI, Shenxin Intelligent, 数据智能平台, Ai与数据, 双向赋能, 大数据处理, 成本优化]

导读

在这场演讲中,演讲者介绍了数星智能在亚马逊云科技(亚马逊云科技)上构建的数据智能平台,包括赛博数字引擎(SAPARINE)、赛博数据平台(SUBDAY)和赛博智能平台(SAPARAI)三大产品。他们的平台能够实现大数据与人工智能的双向赋能,一方面利用多模态数据管理能力为AI应用开发提供数据支持,另一方面开发了大数据场景下的数据智能体(Data Agent),提高数据分析和治理的智能化水平。此外,演讲者还分享了数星智能在亚马逊云科技上的成本优化实践,包括存储层的冷热分离、计算层的资源调度和智能调优等,帮助客户节省计算、存储等资源成本。

演讲精华

以下是小编为您整理的本次演讲的精华。

在当今AI时代的大背景下,数星智能公司专注于为企业级客户提供一站式AI原生开源开放的数据智能平台。该公司的核心产品完全构建在亚马逊云科技(亚马逊云科技)云平台之上,充分利用亚马逊云科技提供的EC2、ECR、EKS、RDS、EFS等基础设施服务资源。数星智能的整个产品架构由三大核心产品组成,分别是赛博数字引擎(SAPARINE)、赛博数据平台(SUBDAY)和赛博智能平台(SAIBOT AI)。

赛博数字引擎产品的定位是为企业级客户提供原生弹性伸缩、与开源完全兼容且成本优化的大数据平台底座服务。该产品基于Amazon S3实现统一的数据存储,利用Amazon Glue管理源数据,并在Amazon EKS上构建原生的大数据集群,为客户提供Spark、Flink等开源大数据引擎服务。同时,赛博数字引擎还支持亚马逊云科技官方的EMR、Redshift等大数据引擎产品,以及亚马逊云科技云市场上的Webs、WeloDB等第三方大数据引擎产品。不同类型的引擎产品通过数星智能提供的统一引擎网关能够快速接入数据平台和AI平台,满足客户的多样化需求。

赛博数据平台产品的定位则是为企业级客户在数据仓库、数据湖以及湖仓一体等不同数据架构场景下,提供一站式的数据开发与治理平台能力。该产品通过数据集成、数据开发、监控运维、元数据管理、数据质量管理、数据安全、数据资产管理和数据服务等一整套完整的能力,助力企业实现数据生产力的提升。

作为数星智能产品的最高层,赛博智能平台的定位是为企业及客户提供一站式的机器学习平台、大模型服务平台,以及AI应用的开发平台。该平台能够为开发者提供代理构建、企业知识库构建等相关能力,支持AI应用的快速开发和落地。

值得一提的是,数星智能的整个产品线100%原生构建在亚马逊云科技云平台之上,目前已在亚马逊云科技云市场上架,服务于数十家国际化企业客户,覆盖电商、零售、游戏等多个行业领域。通过SAPARINE和SUBDAY两款核心产品的组合,数星智能能够在亚马逊云科技云上为客户提供原生一体化的大数据平台,实现从数据集成到存储、计算、开发、治理、服务的端到端全生命周期一站式服务能力。

在AI与数据平台的双向赋能方面,数星智能的实践主要体现在以下两个层面:

首先,AI应用的开发往往需要依赖各种类型的结构化和非结构化数据,用于模型微调和知识库构建。传统的数据平台很难满足这一需求,而数星智能的SUBDAY产品则提供了多模态数据管理的能力。该能力涵盖非结构化数据的采集、存储、管理、处理、开放以及整个过程中的安全保障,使SUBDAY能够作为AI时代的数据中枢,加速AI应用的开发和落地。

其次,在大数据开发智能化的场景下,生成式AI代理也具有非常强烈的需求。以数据分析为例,传统的数据分析流程往往需要业务人员提出需求、定义指标、开发分析任务、生成指标结果、获取结果等一系列繁琐的人工操作步骤。而数星智能针对这一痛点,专门开发了用于大数据领域的DATA AGENT智能体。该智能体能够通过用户以自然语言描述数据分析需求,自动完成数据清理、分析循环的生成和执行、以及最终报表的生成,从而极大提高了大数据开发的效率。

事实上,数据平台和AI代理之间存在相互赋能的关系,体现了“Data for AI”和“AI for Data”的理念。基于这一认识,数星智能总结出了服务于大模型时代、构建和交付数据应用的新模式。该模式分为两个层次:底层需要提供具备多模态数据管理能力的数据基础设施,在此基础之上,再针对不同的大数据场景构建不同类型的数据应用代理,从而实现大数据开发和治理流程的智能化重塑。

除了AI与数据平台的双向赋能之外,数星智能在亚马逊云科技云上的另一大实践是针对大数据平台的计算、存储等资源成本进行了全方位的优化。

首先是产品的部署形态方面,数星智能提供了两种模式:左侧模式下,SAPARINE引擎产品帮助客户在亚马逊云科技上创建和管理EMR集群,并实现了EMR和Serverless的混合调度能力;右侧模式下,整个SAPARINE产品完全构建在Amazon EMR之上,为客户提供Spark、Flink等开源引擎服务,结合SUBDAY数据平台在EKS上的部署,实现了大数据平台端到端的混布架构,有利于基于亚马逊云科技提供的底层资源调度和成本优化能力,最大化提升大数据集群的资源利用率。

在成本优化的具体措施上,数星智能采取了分层优化的策略。存储层基于对象存储和冷热分离技术,降低存储成本;计算层使用性价比更高的实例类型,结合Amazon Auto Scaling分析客户任务资源使用率的波峰波谷,设置弹性伸缩策略降低开销,并自研智能调优工具分析任务资源使用情况,给出参数优化建议,通过SUBDAY任务调度器实现全链路优化;平台层和应用层采用Pod级别的弹性伸缩,降低微服务资源消耗。

通过上述一系列优化措施,数星智能在亚马逊云科技云上为客户落地大数据平台时取得了显著的成本节省效果:数据平台层节省30%-50%的服务资源成本;计算层节省20%-30%的计算资源成本;存储层节省60%-80%的存储成本。

总的来说,数星智能公司在亚马逊云科技云平台上构建了完整的数据智能平台,实现了AI与数据平台的双向赋能,并通过多种手段优化云上大数据平台的计算、存储等资源成本,为企业级客户提供高效、经济的一站式数据智能服务,助力企业在AI时代的数字化转型之路。

下面是一些演讲现场的精彩瞬间:

The speaker discusses their exploration and practice of integrating data and AI, combining both AI and data content in their presentation.

SAPARATE DAY’s intelligent data platform provides multi-modal data management capabilities, enabling the collection, storage, management, processing, and secure handling of unstructured data like files, images, and videos, accelerating AI application development and deployment.

In this mode, we can dynamically scale up the EMR cluster during peak workloads and automatically switch to the serverless cluster if the EMR cluster creation fails, while scheduling tasks to the serverless cluster during low workloads, achieving a hybrid scheduling capability.

In this mode, we can see that the entire end-to-end big data platform is deployed on EKS, achieving a hybrid deployment of online and offline scenarios in the big data context, and maximizing resource utilization of the customer’s big data cluster by leveraging the underlying cloud-native resource scheduling and cost optimization capabilities.

在数据计算层,亚马逊云科技提供了优化计算资源的多种方案,包括使用性价比更高的芯片、弹性伸缩节点、根据任务优先级和业务特点进行大数据机群分类管理等。

总结

亚马逊云科技在数据智能领域的实践展现了数据平台与人工智能之间的双向赋能关系。数星智能构建了一个原生于亚马逊云科技的数据智能平台,包括赛博数字引擎、赛博数据平台和赛博智能平台,为企业客户提供一站式的大数据和人工智能服务。

这个平台能够管理多模态数据,为人工智能应用开发提供数据支持。同时,在大数据场景下,数星智能开发了数据智能体(Data Agent),利用自然语言处理技术实现数据分析任务的自动化和智能化。这种双向赋能关系体现了“数据为人工智能服务,人工智能为数据服务”的理念。

此外,数星智能在亚马逊云科技云上采取了多种成本优化策略,包括存储层的冷热分离、计算层的资源调度优化和智能调优工具、平台层和应用层的弹性伸缩等,有效降低了客户在大数据场景下的计算、存储和服务成本。

数星智能的实践展示了在人工智能时代,构建多模态数据管理基础设施和开发智能数据应用的重要性,以及在云上进行成本优化的必要性,为企业提供了一种新的数据智能交付模式。

我们正处在Agentic AI爆发前夜。2025亚马逊云科技中国峰会提出,企业要从“成本优化”转向“创新驱动”,通过完善的数据战略和AI云服务,把握全球化机遇。亚马逊将投入1000亿美元在AI算力、云基础设施等领域,通过领先的技术实力和帮助“中国企业出海“和”服务中国客户创新“的丰富经验,助力企业在AI时代突破。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。