logologo
logo
热门活动
HOT
产品
解决方案
客户价值
文档
支持与帮助
售前咨询
快手万擎(Vanchin)
开始使用
产品介绍
模型介绍
模型服务
模型定制
模型研发
模型托管
模型评测
数据管理
系统管理
产品计费
API说明
常见问题
相关协议
文档中心
模型服务模型研发自定义任务

自定义任务


自定义任务为多机多卡分布式训练模式,专为大企业、专业 AI 团队打造,可高效支撑大模型预训练、海量数据训练等高阶研发需求,提供高性能、高稳定性的算力支撑,有效规避算力不足引发的训练周期过长、任务中断等问题,保障大规模模型研发高效推进。

一、核心能力

  • 大规模分布式训练:支持使用多种开源深度学习框架进行离线大规模分布式深度训练,上千个节点同时训练,显著缩短训练时间。
  • 离线推理:通过自定义任务可以离线对模型进行离线推理,有效增加闲时GPU机器使用率,大大降低资源浪费。
  • 全流程可视化:任务执行过程中可全程跟踪状态与日志,支持通过 TensorBoard 查看训练指标。

二、适用场景

核心适配:模型研发后期的大规模训练、海量数据处理,需要突破单机算力瓶颈,侧重"高算力、分布式、可调度"。

  • 海量数据预处理任务

开发者可通过提交数据处理脚本,享受分布式计算带来的并行处理能力,轻松应对海量数据的预处理挑战,大幅提升数据处理效率,为后续训练环节奠定基础。

  • 分布式训练任务

开发者可直接提交训练代码,按需选择 GPU 资源数量,无需手动搭建分布式环境,平台会自动构建分布式训练集群,高效调度资源实现千卡级并行计算,大幅缩短训练周期,极大加速实验迭代效率,适配各类大规模模型训练需求。

三、操作指引

下文为操作示例,最佳实践请查看:自定义任务 ms-swift 最佳实践

💰 账户额度提示

1.欠费状态限制
a. 余额➕信用额度无法覆盖本次任务1小时使用时长所需费用时,将无法正常新建任务;若额度足够覆盖,允许新建任务
b. 欠费状态下运行中的任务将继续运行

2. 冻结状态限制
a. 冻结状态不支持新建任务
b. 允许用户查看自定义任务详情、终止及删除任务
c. 当账户状态由欠费变为冻结时,任务将自动终止

3. 冻结后使用平台能力
a. 冻结状态下用户无法新建,请先充值,使账号状态恢复正常
b. 在完成充值后,因冻结被关机的开发机【需用户重新提交任务】,当账户余额➕信用额度可覆盖任务1小时使用时长所需费用时,任务才能正常运行

3.1 新建自定义任务

前置准备

1.权限申请:

    • 主账号(即溪流湖账户)拥有账号下所有项目的访问/管理权限,无需权限申请;
    • 子账号:可由主账号为名下子账号设置某项目的只读/管理权限。

2.若账户余额不足,请先充值

创建步骤

确认权限及余额无问题后,在左侧导航栏中「模型定制」下方点击「模型研发」,切换至「自定义任务」Tab,点击「+ 新建自定义任务」进入创建页面,按以下说明填写参数:

基础信息

1.名称及描述:用户可根据自身需求配置实例名称及描述。

环境配置

1.计费方式:当前仅支持后付费模式,即按实际使用时长付费,适合短期、弹窗需求,性价比更高。后付费模式下实例运行成功后开始计费,即任务状态变更为【运行中】;实例终止完成后停止计费,即任务状态变更为【已终止】。

2.实例配置:当前仅支持PyTorch框架,平台针对每种类型GPU提供了梯度丰富的CPU和内存规格,以帮助用户提高支配的灵活度及资源利用率。

3.镜像:当前仅支持ms-swift框架的预置镜像:ms-swift:3.9-ubuntu-24.04-cuda-12.8.1-python-3.12,其代表ms-swift版本为3.9、Ubuntu版本为24.04、CUDA版本为12.8.1、Python版本为3.12。

存储配置

1.系统盘:共100GB,用于存储开发过程中的文件,不额外收费。系统盘仅用于临时存储,删除开发机时,系统盘数据将一并删除,无法恢复,如果您需要永久性存储,可以选择共享存储。

2.共享存储:提供高可靠、高可用、高性能的分布式文件存储服务,可存储模型文件或训练数据,其数据不会因开发机删除、结束运行或异常而丢失。共享存储创建后开始计费,删除后停止计费。用户可在创建开发机页面选择共享存储时删除不需要的存储服务,或在列表页点击编辑按钮进行删除。

【⚠️ 提示:存在创建中、启动中、运行中的任务使用某个存储服务时,该存储服务无法删除】

任务配置

1.启动命令:Shell 类型,最大 8192 字符,用于指定任务启动时执行的命令。示例:自定义任务 ms-swift 最佳实践

2.环境变量:可配置任务运行所需的环境变量,以键值对形式输入。

3.最长运行时长:默认 7 天,支持切换分钟、小时、天为单位,范围:1 分钟 — 366 天。

【⚠️提示:从任务创建时间开始计时,如果任务在设置时间内未全部完成,平台将自动停止该任务】

具体计费说明请点击计费规则查看。

3.2 自定义任务列表

当项目下存在自定义任务时,用户可在「模型研发 - 自定义任务」页面查看该项目下的所有任务,包括开发机名称、状态、镜像等信息。

操作说明

  • TensorBoard:用户可查看任务训练结果
  • 日志:任务执行过程中,可全程查看日志详情
  • 用量:点击后将展示该实例规格的用量详情

点击某个任务名称将进入详情页面,详情页面展示该自定义任务的名称、地域、镜像、运行时长等基础信息、示例列表及日志。


上一篇:开发机 ms-swift 最佳实践下一篇:自定义任务 ms-swift 最佳实践
该篇文档内容是否对您有帮助?
有帮助没帮助