当前位置: 首页 » 资讯 » 科技头条 » 正文

对话 GMI Cloud : 英伟达仅7家的认证伙伴之一,不想做算力包租公

IP属地 中国·北京 硅星人 时间:2025-12-03 12:20:26


作者 | 周一笑
邮箱 | zhouyixiao@pingwest.com

2025 年,AI 算力市场的重心正在发生偏移。DeepSeek 等开源模型的爆发是一个明确信号,AI 的主战场正从昂贵的训练场景,被拽入高频、碎片化的推理场景。在这个节点上,Alex Yeh 和他的 GMI Cloud 站在了一个微妙的位置。

这家成立仅 3 年的公司,正在以一种罕见的速度完成资本与产能的原始积累。去年 10 月,GMI Cloud 拿到了 8200 万美元的 A 轮融资 ,今年上半年又获得了 NVIDIA NCP(Reference Platform NVIDIA Cloud Partner)认证 。这个认证,截至目前全球仅有 7 家公司持有 ,在紧缺的算力市场,它意味着拥有最高优先级的拿货权和原厂技术支持 。

上周,GMI Cloud 宣布与 NVIDIA 在中国台湾合作建设 AI Factory,GMI Cloud 自行总投资 5 亿美元 。这座超级数据中心计划部署基于 GB300 NVL72 架构的万卡集群 。据官方透露的独家消息,该工厂的第一期算力已经售出,第二期也已有 50% 被预定 。

这背后是当前算力市场的真实供需,尽管芯片产能不再像两年前那样极度紧缺,但优质、可用的集群资源依然稀缺。Alex Yeh 将这种状态形容为一种复杂的压力。作为 GMI Cloud 掌舵者,他必须在产能与需求之间走钢丝,同时警惕悬在所有 GPU 云厂商头顶的达摩克利斯之剑:当 GPU 最终变成像水电煤一样的大宗商品,一家创业公司如何避免沦为巨头阴影下的流量管道?

Alex Yeh 并非典型的极客创业者。在创办 GMI Cloud 之前,他在私募股权和风险投资领域工作多年,曾是加密货币与区块链生态中最年轻的合伙人 。资本市场的训练让他习惯于剥离技术泡沫,寻找资产的底层逻辑。

他曾目睹区块链行业的兴衰。在他看来,那个市场唯一恒定的资产是比特币,而获取它的路径只有两条,算力和能源。并没有选择炒作币价,他投身于数据中心建设和电力布局 。如今,他将这套逻辑复用到了 AI 领域。无论应用层如何演变,无论最终胜出的是 Coding 还是视频生成模型,算力是唯一的确定性刚需。

但他拒绝做纯粹的算力租赁商。在 AWS、Azure 和 Google Cloud 等超大规模云厂商统治的市场“牌桌”中,GMI Cloud 试图走出一条“符合 AI 应用企业需求的全链条算力支持”的新路子。

不同于巨头主要围绕 CPU 构建的通用云底座,GMI Cloud 选择了重资产模式:底层裸金属采买自持英伟达高端 GPU,在全球建设多个数据中心;中间 IaaS 层自研集群调度引擎——Cluster Engine(集群引擎)平台,上层提供 MaaS 服务——Inference Engine (推理引擎)平台。同时,据一手消息,他们还即将上线一款名为“GMI Studio”的 Workflow 产品,以及在年底陆续孵化强化学习类产品。这种从裸金属到 Token,再到应用层产品的全栈支持能力,让他们在面对 CoreWeave 等北美友商时,依然能在亚太和出海市场找到生存空间。

Alex 并不避讳谈论行业的残酷。他看到单纯的 GPU 租赁生意终将面临利润摊薄,为了在红海到来前建立壁垒,所以他正在做两件事,一是在全球范围内锁定 2027 年的电力资源,因为电力将是数据中心最大的硬约束;二是构建软件生态,通过深度优化模型提供比原生平台更快、更低成本的推理服务、模型服务 。值得一提的是,在行业里大家都还没有将“电”视为第一生产力影响要素的时候,Alex 早就已经提前做电厂的部署规划。

GMI Cloud 是这一轮 AI 基础设施玩家洗牌的缩影,是 AI Cloud 时代下的当红新贵。当热钱退去,只有那些能解决供应链、电力和深度技术服务的公司,才能留在牌桌上。

近期,我们与 GMI Cloud 创始人 Alex Yeh 进行了一次对话,谈到了他对算力市场的判断、公司的策略选择,以及这门生意的本质。以下是对话实录,经不改变原意的编辑。

看不清哪个 AI 应用会跑出来,但算力是确定的

硅星人:在创立 GMI Cloud 之前,你有着非常丰富的 AI 和 VC/PE 投资背景。是什么契机让你从“看项目的人”转变为下场“做项目的人”,并投身到 AI 基础设施赛道?

Alex:这其实源于我做投资时的一个核心训练,叫 First Principle Thinking(第一性原理思考)。我习惯去问五个“为什么”,一层层剥开表象,直到推导出一个市场里不变的真理。

举个例子,如果不看科技看养老,那个市场里不变的真理就是“老龄化”,所有的看护、医疗需求都围绕这个不变的逻辑展开。当年我看区块链行业也是一样,为了寻找市场中的 Alpha,我发现那个赛道里唯一恒定的其实是比特币。而要想持续获得比特币,最底层的逻辑就是“算力”和“能源”。所以我当时没有选择去炒币,而是直接投身去做了最底层的“挖矿”,也就是数据中心的建设和电力资源的布局。

现在的 AI 赛道虽然五花八门,从通用的 LLM 到各种垂直赛道——心理治疗、数学科研、视频模型、Coding 等等,但它们中间核心不变的是什么?推导到最后,它们都需要消耗巨大的算力。

就像 1995 年互联网刚起步时,我们根本无法预见到 20 年后会出现 Facebook、Amazon 或是阿里巴巴。同样的,我现在可能看不清未来哪个具体的 AI App 会跑出来,但我能确定整个赛道对 GPU 算力的需求是确定的。所以,相比于去赌某一个具体的应用或工具(风险较大),赌整个 GPU 算力赛道对我来说是风险最小、确定性最高的选择。加上之前做区块链基础设施积累的机房建设经验和电力资源,也让我能比较快速地切入这个领域。

硅星人:与 AWS、Google Cloud 等云服务商(Hyperscalers)相比,GMI Cloud 的核心差异化是什么?业界有声音认为专业的 AI Cloud 效率能高出 40%,你们有观察到类似的优势吗?

Alex:Hyperscalers 和我们最大的区别,我觉得主要体现在三个维度:位置(Location)、服务颗粒度(Service)和产品形态(Product)。

首先是位置。Hyperscalers 通常只围绕特定的几个核心大区(Region)服务。但在很多特定市场,比如东南亚,公有云的覆盖其实并不完整,往往需要连接到东京或其他大节点的机房,这在延迟和数据合规上会有很大问题。GMI Cloud 创立之初就是一家 Global Company,我们在全球多个地区有多个节点,能更灵活地满足当地客户对数据驻留和低延迟的需求。

其次是服务的深度。这个行业里,除非你是全球 500 强或者每年预算在 2000 万美金以上,否则你很难在 Hyperscalers 那里获得专属的 Account Executive 或技术支持。但在 AI 训练中,机器与模型的绑定非常深,训练过程极不稳定,非常需要 TAM(技术客户经理)和 SA(解决方案架构师)的深度支持。GMI Cloud 能提供这种高强度的技术支持,帮助客户优化 Token 和 Infra,这是很大的体感差距。

最后是产品。Hyperscalers 的底座大多是围绕 CPU 云构建的,GPU 只是其中一部分,很多产品是基于 CPU 架构做的变通。而 GMI Cloud 是 AI Native 的,我们不仅是卖算力,还做到了底层的 Model Optimization 和 Memory Optimization。例如在 Llama 模型的推理上,我们的吞吐量和首字延迟能比传统云厂商快 2-3 倍;在视频生成模型上,我们的速度甚至能比某些官方 API 快 3 倍。这就是专注带来的红利。

硅星人:面对与 CoreWeave、Lambda 等模式相似的竞争对手,GMI Cloud 在技术、服务以及定价策略上,最核心的优势是什么?

Alex:CoreWeave 和 Lambda 都是非常值得尊敬的友商。CoreWeave 主要专注于 Training 和超大规模集群,客户集中度很高,Microsoft 和 OpenAI 占了很大比例,但在推理层面,比如按秒计费、全球多点部署(特别是亚洲),他们目前涉及较少。Lambda 的优势在于 Container 和租赁本身,但在模型层的适配上做得相对少一些。

GMI Cloud 的打法是提供 Vertical Stack(垂直全栈)的能力。我们不仅提供裸金属做训练,还提供 Inference Engine,支持按 Token 计费。这就好比我们既卖“面粉”(算力),也卖“面包”(API)。无论客户是需要裸金属做训练,还是作为创作者只需要调用 DeepSeek 或 Qwen 的 API,我们都能提供。而且我们在视频模型的优化上下了很大功夫,提供了 Video 相关的垂直服务,这是目前很多竞品还没覆盖到的。

不只是“套壳”,是底层优化

硅星人:你们的 Inference Engine 平台,和很多公司都有类似的业务。你们的核心附加值到底是什么?

Alex:这问到了点子上。主要有两个核心区别,全球化能力和对底层硬件的掌控力。

据我了解,国内同类厂商的算力主要集中在国内,如果是做 AI 出海应用,会遇到明显的延迟问题。GMI Cloud 的节点遍布全球,能解决出海客户的地理位置痛点。

更重要的是,我们拥有自己的物理算力(Own Hardware),而不是纯粹的 Serverless API 聚合商。如果你去租阿里云或火山引擎,通常拿到的是 VM(虚拟机),很难做底层的“骚操作”来优化 GPU 集群的通信和推理效率。因为我们拥有底层的 GPU 卡,我们可以控制到 Bare Metal 甚至底层防火墙级别。只有控制硬体,才能把成本压下去,同时把性能提上来。这就是为什么我们能比原生平台跑得更快、更便宜。

硅星人:作为 NVIDIA 的 Reference Platform NVIDIA Cloud Partner,除了能优先拿到新卡,这个身份还带来了哪些“看不见”的好处?

Alex:这个认证确实不仅是拿卡那么简单。我们在研发层面与 NVIDIA 有非常紧密的 Bi-weekly Catch-up(双周技术会议)。

举个具体的例子,我们正在推进全亚洲第一个 GB300 液冷万卡集群的建设。这种级别的集群建设,业内几乎没有先例可循,难度非常大。NVIDIA 的团队会直接介入,帮我们一起调整参数、建设部署。

这种从 Confidential Computing 到 Infiniband 网络层面的深度技术支持,是我们能搞定这种超大规模集群的关键。此外,能提前接触到像 Rubin 这样下一代架构的信息和 Demo,也让我们在技术规划上能抢占先机。

硅星人:我们看到市场正出现 NVIDIA 之外的专用 AI 芯片(ASIC)。GMI Cloud 的长期硬件战略,是会继续深度绑定 NVIDIA,还是会拥抱一个更多元化的算力底层?

Alex:这是一个基于理性和时间的考量。目前光是适配 NVIDIA 的迭代——从 H100 到 H200 再到 Blackwell,以及 CUDA 的升级,就已经消耗了我们大量的人力资源。

再加上模型层也在疯狂迭代,像 DeepSeek、Qwen、Wan 这些新模型层出不穷。光是做好 NVIDIA 架构下的模型适配就已经很难了。所以短期内,我们会集中精力把英伟达芯片资源做深。当我们的规模扩展到一定程度后,可能会组建独立的团队去探索新的硬件生态。

硅星人:GMI Cloud 的容器化服务,与传统 GPU 租赁有什么不同?这些 PaaS/MaaS 层的服务,为客户带来的最终业务价值是什么?

Alex:传统的容器服务只是给你一张卡租多少时间。而我们的 MaaS 服务是经过深度优化的。

根据第三方平台的对比,我们的 API 相比其他提供商有 2.4 倍到 3 倍的提速。这背后的技术包括 GPU 并行计算(Parallelism),让我们能在多个节点间高效分配推理任务;以及自动扩缩容(Auto-scaling)和显存访问优化。最终给客户带来的价值就是:速度更快,成本更低。

算力还不是大宗商品,机器坏掉是不会挑日子的

硅星人:在你们与欧洲 AI 音乐平台的合作案例中,提到了“联合工作小组”进行调优。随着客户群扩大,你们将如何 Scale 这种定制化能力?

Alex:这种深度模式目前主要针对重点客户(Key Accounts)。这其实是一个互补和共同成长的过程。

比如我们有一个案例,客户同时使用 Qwen 和 DeepSeek 两个模型。他们擅长调优 Qwen,我们擅长调优 DeepSeek。于是我们决定 Share Repo(共享代码库),把各自优化的节点和加速经验共享出来,避免重复造轮子。通过这种深度合作,我们能将 GPU 集群的稳定性调得非常高,通过降低故障率和优化 Checkpointing,让客户的训练速度提升了 20%。

虽然这是高接触服务,但我们在合作中学到的技能,比如特定 Video 模型的优化,会沉淀下来,标准化后服务于更多同类客户。这本身也是我们在打磨产品。

硅星人:单纯的 GPU 租赁利润会越来越薄。GMI Cloud 计划如何通过构建自己的软件和服务生态,来避免陷入低利润的“算力红海”?

Alex:很多人认为算力最终会变成 Commodity(大宗商品),但至少目前来看,它还不是。

在这个行业,即使你买了 GPU,如果网络服务和稳定性做不好,客户是没法用的。我们见过有厂商机器经常断网,或者周末找不到人维护。但你知道,机器坏掉是不会挑日子的。所以,服务品质和集群稳定性本身就是极高的壁垒。口碑越好,客户越多。

另外,规模(Scale)也是壁垒。现在能提供 8 卡、16 卡集群的厂商一抓一大把,但能提供单一集群 2000 卡甚至万卡级别的厂商非常少。随着模型越来越大,客户对大规模集群的需求在增加,这实际上是在进行一场去芜存菁的行业洗牌。只有具备大规模交付和服务能力的厂商才能在红海中生存下来。

硅星人:从行业视角看,先租后买(Buy-to-Own)在 AI 算力采购版图中的位置是什么?它会走向主流吗?

Alex: 它不会是全市场的主流,而是服务于特定阶段、比较成熟的客户。这类客户通常愿意签 3 年以上的长约,他们算过账,认为付完 3 年租金后,资产折旧也差不多了,希望能拥有资产的所有权。这是针对特定高端需求的一种灵活服务。

硅星人:与服务本土企业相比,服务海外企业和 AI 出海企业对你们的技术、服务和全球化能力提出了哪些不同的要求?

Alex: 中国出海企业通常有三个核心需求:1、成本可控的混合架构:出海初期预算有限,需要高性价比。2、用户体验:落地到日本、东南亚或北美时,需要当地的节点来保证低延迟。3、中文服务与合规:我们能提供普通话服务,同时解决当地的合规问题。

硅星人:目前来看,哪些行业对你们的 GPU 云服务需求最旺盛?能分享一两个最有意思的应用案例吗?

Alex:目前看最火的三个赛道是:AI Software Copilot(编程辅助)、Image & Video Generation(图像视频生成)和 AI Companions(AI 陪伴)。

最有意思的一个案例是我们有个做 Video 的客户。他们的产品发布后瞬间爆火,算力需求在 1 个月内翻了 8 倍。我们必须在极短时间内帮他们完成极速扩容,从几百卡瞬间扩到几千卡。

这对我们的供应链和调度能力是巨大的考验,但我们也因此赢得了客户的极度信任。这也带来了一个“甜蜜的负担”,我们的卡经常处于售罄状态,需要在 Capacity(产能)和 Demand(需求)之间不断玩“跷跷板”游戏。

只做“出海”与“本地化”

硅星人:在亚洲市场(如中国大陆、东南亚、东北亚),你们的布局和竞争策略是什么?

Alex:我们在不同市场的打法非常明确。

在中国大陆,我们不碰本土 GPU 业务,只做“出海服务”。帮助中国企业落地东南亚、日本和北美。中国出海企业有三个核心需求:成本可控的混合架构、低延迟的用户体验(Local 节点),以及中文服务与合规。我们在亚太某些地区,因为有本地节点,解决了很多金融或 IC 设计公司在 AWS/GCP 上找不到本地算力的痛点。

在东北亚,我们已经拿下了日本第二大电力公司作为客户,并组建了日本团队,提供从 GPU 到模型管理的一条龙服务,服务本土大客户和出海落地的客户。

在东南亚,我们有丰富的机房 partner 资源,几乎可以做到快速帮国内 AI 应用出海企业快速拉到资源。

硅星人:去年的 A 轮融资取得了哪些关键进展?基于这些成果,公司对下一轮融资有何规划?

Alex:A 轮资金主要用于获取 NCP 认证和建设早期的千卡/万卡集群。这一年的成果是显著的,我们拿到了 NVIDIA 的核心认证,建设了万卡规模的算力,并赢得了投资人和客户的认可。

对于 B 轮融资,我们预计规模是 2 亿美金,预计本年底就可以 Close。这笔资金将主要用于建设 AI Factory,将我们的集群规模在现有基础上翻倍甚至翻三倍,特别是在北美、日本和台湾地区的扩容。

巨石、鹅卵石和沙

硅星人:你觉得未来两三年,GPU 云算力这个市场,最大的机会和挑战会是什么?

Alex:最大的挑战绝对是电力。真的不够用。

我们最早找机房时只需半兆瓦(0.5MW),现在找机房起步就是 40MW。整个规模发展非常可怕。我们现在做规划已经不是看 6 个月后,而是要直接去锁定 2027 年的电力资源。这也迫使我们往上游走,直接跟 Hyperscalers 和电力公司合作。未来的竞争,很大程度上会是能源的竞争。

硅星人:怎么看待开源和闭源大模型的竞争?这对你们有什么影响?

Alex:我觉得开源是整个产业的推进器。像今年的 DeepSeek V3 一出来,市场反应非常热烈,企业发现终于可以低成本地控制自己的数据和模型了。

以前大家觉得开源闭源差距很大,现在这个 Gap 正在迅速缩小(Converge)。之前像 Cursor 这样的产品一火,大厂马上就能出一个 Cloud Code 把它覆盖掉,因为成本太高了。但开源模型让大家有了反击的机会。我有一个大胆的预测,在 Video 赛道,也会出现“DeepSeek Moment”。像阿里的 Wan 2.5 已经非常强了,未来视频模型也会像 LLM 一样,出现一个开源的高光时刻。这对我们这种基础设施厂商是巨大的利好。

硅星人:最后一个问题,我们正进入一个“推理时代”。GMI Cloud 的理想状态,会是一个什么样的角色?

Alex:我们不希望只做一个单纯的“算力提供商”,那样只会越做越窄。我们希望做一个可以解决 AI 应用企业所有技术及算力需求的 Verticalized AI Service Platform(垂直化 AI 服务平台)。

我有一个比喻,叫做 "Rock, Pebble and Sand"(巨石、鹅卵石和沙子):

Rock(巨石):像 CoreWeave 那样,提供超大规模集群给大模型公司做 Training。

Pebble(鹅卵石):通过 K8s 和 Container,服务于需要灵活性、中等规模算力的初创企业。

Sand(沙子):通过 Inference Engine 提供 API 服务,让创作者和开发者能像抓沙子一样,随时随地调用 DeepSeek、Qwen 等模型。同时针对开发者和创作者,我们也会孵化更多好用的服务,比如 Workflow 等。

我们的终局是把这三层全部打通,从最小的 API 调用到最大的万卡集群训练,提供一个全栈式的解决方案。


点个爱心,再走 吧

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新