在云计算领域,将工作负载从一个云平台迁移至另一个云平台一直是企业面临的棘手挑战。尽管Terraform作为基础设施即代码技术的标准,本应助力基础设施在云提供商间实现可移植性,但现实却不尽如人意。每个云提供商都拥有独特的资源表述方式,导致迁移过程往往需要数月的手动重写代码。即便市面上存在一些声称能生成生产就绪基础设施即代码的AI工具,在处理网络、身份访问管理以及服务依赖等复杂问题时,表现也难以令人满意。
位于加利福尼亚州普莱森顿的初创公司FluidCloud,在2025年7月获得810万美元种子轮融资后正式走出隐身模式,推出了一项名为大型基础设施模型的创新技术。该技术是一个专门打造的AI引擎,专注于在多云环境中生成、翻译和验证Terraform代码。FluidCloud联合创始人兼首席执行官Sharad Kumar强调,真正的弹性并非仅仅扫描云环境并生成基础设施即代码,而是具备将基础设施迁移至其他区域或云提供商的能力。
大型基础设施模型在架构设计上独树一帜。与大多数基于基础模型或标准微调大语言模型构建的AI基础设施工具不同,它采用了多个模型的混合架构。联合创始人兼首席技术官Harshit Omar介绍,系统的转换和核心能力并非依赖大语言模型,而是基于他们自主研发的条件模型。其中,标准大语言模型位于前端,负责解析用户意图;Terraform生成和云到云转换工作则运行在基于基础设施模式训练的自定义基础模型上。这些训练数据全部为合成数据,FluidCloud通过生成大量Terraform配置,并运用自身转换技术构建了训练语料库。
在性能评估方面,FluidCloud采用BLEU评分对大型基础设施模型进行基准测试。目前,该模型得分为0.58,接近0.60的人类水平性能,显示出其在Terraform生成任务上的出色表现。该模型覆盖跨云提供商的150多种资源类型,输入模型也发生了显著变化。此前,平台需要直接云扫描作为输入,且仅覆盖约25到30种资源类型;如今,它接受包含Terraform代码的现有GitHub存储库作为输入,能够处理多种Terraform语法样式,并支持自定义映射覆盖。
大型基础设施模型还具备多项扩展功能。在迁移开始前,它会运行兼容性评分层,根据现有基础设施估计在目标平台上可能失败的工作负载百分比。同时,该模型引入了故障预测功能,通过分析云提供商发布周期、区域间公共网络延迟数据和计划的操作系统升级窗口等信息,预测潜在故障。FluidCloud计划建立一个公共社区页面,发布即将到来的故障预测,供企业订阅提前通知。平台开箱即用包含1800个合规策略,涵盖主要超大规模云服务商以及Vultr、OVH和Hetzner等新兴云提供商。
跨云网络迁移是多云迁移中的一大难题。不同云提供商在VPC配置、私有隧道、安全组和防火墙规则等方面的表述方式各异,手动迁移这些配置往往导致迁移过程停滞。大型基础设施模型在翻译基础设施时,能够完整复制网络堆栈,确保在另一个云中实现功能一致。由于该模型在跨提供商DevOps和基础设施模式上进行了训练,因此无需工程团队从头学习每个云的网络方言,即可高效处理翻译工作。
除了迁移功能,大型基础设施模型还充当优化层。Harshit Omar解释,DevOps工程师做出的每个基础设施变更都可归为成本、安全或性能三类。该模型对这些变量进行建模,并根据检测到的意图设置权重,从而生成新的基础设施配置。例如,如果用户意图降低成本,模型会平衡配置以实现这一目标;如果用户关注性能提升,模型则会优化配置以提高性能。
在故障预测方面,Harshit Omar指出,上游光纤提供商并非云故障的主要因素,发布周期压力才是更大驱动因素。由于云提供商面临提供更新服务的压力,加上AI和代码生成技术的应用,质量控制和故障问题日益增多。针对这一现状,FluidCloud的下一个开发重点包括用于通过MCP创建自定义基础设施工作流的智能体构建器,以及抽象云提供商API的可移植SDK。这些SDK将使切换云部署变得如同更改环境变量一样简单,无需重写API调用。
