

自定义任务为多机多卡分布式训练模式,专为大企业、专业 AI 团队打造,可高效支撑大模型预训练、海量数据训练等高阶研发需求,提供高性能、高稳定性的算力支撑,有效规避算力不足引发的训练周期过长、任务中断等问题,保障大规模模型研发高效推进。
核心适配:模型研发后期的大规模训练、海量数据处理,需要突破单机算力瓶颈,侧重"高算力、分布式、可调度"。
开发者可通过提交数据处理脚本,享受分布式计算带来的并行处理能力,轻松应对海量数据的预处理挑战,大幅提升数据处理效率,为后续训练环节奠定基础。
开发者可直接提交训练代码,按需选择 GPU 资源数量,无需手动搭建分布式环境,平台会自动构建分布式训练集群,高效调度资源实现千卡级并行计算,大幅缩短训练周期,极大加速实验迭代效率,适配各类大规模模型训练需求。
下文为操作示例,最佳实践请查看:自定义任务 ms-swift 最佳实践
💰 账户额度提示
1.欠费状态限制
a. 余额➕信用额度无法覆盖本次任务1小时使用时长所需费用时,将无法正常新建任务;若额度足够覆盖,允许新建任务
b. 欠费状态下运行中的任务将继续运行
2. 冻结状态限制
a. 冻结状态不支持新建任务
b. 允许用户查看自定义任务详情、终止及删除任务
c. 当账户状态由欠费变为冻结时,任务将自动终止
3. 冻结后使用平台能力
a. 冻结状态下用户无法新建,请先充值,使账号状态恢复正常
b. 在完成充值后,因冻结被关机的开发机【需用户重新提交任务】,当账户余额➕信用额度可覆盖任务1小时使用时长所需费用时,任务才能正常运行
前置准备
1.权限申请:
2.若账户余额不足,请先充值。
创建步骤
确认权限及余额无问题后,在左侧导航栏中「模型定制」下方点击「模型研发」,切换至「自定义任务」Tab,点击「+ 新建自定义任务」进入创建页面,按以下说明填写参数:
基础信息
1.名称及描述:用户可根据自身需求配置实例名称及描述。
环境配置
1.计费方式:当前仅支持后付费模式,即按实际使用时长付费,适合短期、弹窗需求,性价比更高。后付费模式下实例运行成功后开始计费,即任务状态变更为【运行中】;实例终止完成后停止计费,即任务状态变更为【已终止】。
2.实例配置:当前仅支持PyTorch框架,平台针对每种类型GPU提供了梯度丰富的CPU和内存规格,以帮助用户提高支配的灵活度及资源利用率。
3.镜像:当前仅支持ms-swift框架的预置镜像:ms-swift:3.9-ubuntu-24.04-cuda-12.8.1-python-3.12,其代表ms-swift版本为3.9、Ubuntu版本为24.04、CUDA版本为12.8.1、Python版本为3.12。
存储配置
1.系统盘:共100GB,用于存储开发过程中的文件,不额外收费。系统盘仅用于临时存储,删除开发机时,系统盘数据将一并删除,无法恢复,如果您需要永久性存储,可以选择共享存储。
2.共享存储:提供高可靠、高可用、高性能的分布式文件存储服务,可存储模型文件或训练数据,其数据不会因开发机删除、结束运行或异常而丢失。共享存储创建后开始计费,删除后停止计费。用户可在创建开发机页面选择共享存储时删除不需要的存储服务,或在列表页点击编辑按钮进行删除。
【⚠️ 提示:存在创建中、启动中、运行中的任务使用某个存储服务时,该存储服务无法删除】
任务配置
1.启动命令:Shell 类型,最大 8192 字符,用于指定任务启动时执行的命令。示例:自定义任务 ms-swift 最佳实践
2.环境变量:可配置任务运行所需的环境变量,以键值对形式输入。
3.最长运行时长:默认 7 天,支持切换分钟、小时、天为单位,范围:1 分钟 — 366 天。
【⚠️提示:从任务创建时间开始计时,如果任务在设置时间内未全部完成,平台将自动停止该任务】
具体计费说明请点击计费规则查看。
当项目下存在自定义任务时,用户可在「模型研发 - 自定义任务」页面查看该项目下的所有任务,包括开发机名称、状态、镜像等信息。
操作说明
点击某个任务名称将进入详情页面,详情页面展示该自定义任务的名称、地域、镜像、运行时长等基础信息、示例列表及日志。