

快手万擎平台为开发者打造的专业模型研发能力,提供开发机与自定义任务两大核心模式:开发机支持单机研发,可在线完成代码编辑、调试,实现开发训练效果可视化;自定义任务适配多机多卡分布式训练,能提供上千节点的分布式任务算力调度能力,满足不同研发场景的算力与操作需求。
开发机是万擎为用户提供的在线交互式开发环境,专为 AI 模型研发场景设计,致力于为用户提供“开箱即用”的云端开发体验。通过封装标准化的开发环境配置流程,开发机彻底免去了用户本地搭建、调试开发环境的繁琐操作,同时实现代码管理与开发环境管理的一体化,让用户能够聚焦模型研发核心任务。
核心适配:模型研发初期的轻量开发、即时调试、效果验证,无需大规模算力,侧重“便捷性、即时性、可视化”。
在IDE(当前支持VSCode和Terminal)中更加方便快捷地修改模型架构、损失函数、优化器参数,训练数个Epoch并实时观察损失曲线与验证指标,快速验证想法。
针对小规模数据集,训练参数量较小的模型,开发机可满足单机训练需求,无需复杂的算力调度,兼顾便捷性和训练效率,适合个人开发者或小团队快速完成小型任务研发。
基础信息
1.名称及描述:用户可根据自身需求配置实例名称及描述。
环境配置
1.计费方式:当前仅支持后付费模式,即按实际使用时长付费,适合短期、弹窗需求,性价比更高。后付费模式下实例运行成功后开始计费,关机后停止计费。
2.实例规格:选择地域及实例规格,平台针对每种类型GPU提供了梯度丰富的CPU和内存规格,以帮助用户提高支配的灵活度及资源利用率。
3.镜像:万擎为用户提供了常用开源框架及Python版本的预置镜像。以:pytorch: 2.4.0-ubuntu-22.04-cuda-12.4.0-python-3.10.15为例,其代表PyTorch版本为2.4.0、Ubuntu版本为22.04、CUDA版本为12.4.0、Python版本为3.10.15。
存储配置
1.系统盘:共100GB,用于存储开发过程中的文件,不额外收费。系统盘仅用于临时存储,删除开发机时,系统盘数据将一并删除,无法恢复,如果您需要永久性存储,可以选择共享存储。
2.共享存储:提供高可靠、高可用、高性能的分布式文件存储服务,可存储模型文件或训练数据,其数据不会因开发机删除、结束运行或异常而丢失。共享存储创建后开始计费,删除后停止计费。用户可在创建开发机页面选择共享存储时删除不需要的存储服务,或在列表页点击编辑按钮进行删除。
【⚠️ 提示:存在创建中、启动中、运行中的开发机使用某个存储服务时,该存储服务无法删除】
具体计费说明请点击计费规则查看。
当项目下存在开发机时,用户可在模型研发页面查看该项目下的所有开发机,包括开发机名称、状态、镜像等信息。对于运行中的开发机,点击「打开」进入在线IDE页面,用户可根据需要切换不同的环境。
点击某个开发机名称将进入开发机详情页面,详情页面展示该开发机的名称、地域、镜像、运行时长等基础信息、存储配置及计费规则。
自定义任务为多机多卡分布式训练模式,专为大企业、专业 AI 团队打造,可高效支撑大模型预训练、海量数据训练等高阶研发需求,提供高性能、高稳定性的算力支撑,有效规避算力不足引发的训练周期过长、任务中断等问题,保障大规模模型研发高效推进。
核心适配:模型研发后期的大规模训练、海量数据处理,需要突破单机算力瓶颈,侧重“高算力、分布式、可调度”。
开发者可自定义容器环境,提交数据处理脚本,即可享受分布式计算带来的并行处理能力,轻松应对海量数据的预处理挑战,大幅提升数据处理效率,为后续训练环节奠定基础。
开发者可直接提交训练代码,声明所需GPU资源数量,无需手动搭建分布式环境,平台会自动构建分布式训练集群,高效调度资源实现千卡级并行计算,大幅缩短训练周期,极大加速实验迭代效率,适配各类大规模模型训练需求。
当前平台仅支持开发机能力,若您对自定义任务能力有需求,欢迎联系平台申请,申请入口:能力申请。