该 GPU 云解决方案的核心原则是其无缝的可扩展性和弹性资源管理,旨在优化性能同时控制支出。用户受益于按使用付费模式,可以根据实时工作负载需求动态调整 GPU 资源。这种弹性对于波动的项目需求至关重要,可以防止在高峰时段出现资源饥饿,并在低谷时避免不必要的成本累积。基础设施的管理通过直观的命令行界面 (CLI) 工具得到了简化,该工具便于轻松扩展、实时监控 GPU 和内存使用率等利用率指标,以及实施复杂的自动扩展规则以自动维护服务水平。
除了原始计算能力之外,该平台还集成了用于管理云环境中 AI 项目整个生命周期的综合工具。这包括用于部署指定确切 GPU、内存和 CPU 要求的容器化工作负载的简化机制,以及用于列出和检查活动 GPU 实例的实用程序。对于更可预测的长期需求,用户可以选择预留 GPU 实例,以确保一致的访问并可能获得更好的费率。该系统还支持高级工作流编排,支持在最佳时间安排复杂的训练作业,并确保所有数据、模型检查点和推理结果都通过企业级云存储解决方案安全处理。

