logologo
售前咨询
快手万擎(Vanchin)
开始使用
产品介绍
模型介绍
模型服务
模型定制
模型研发
模型托管
模型评测
数据管理
系统管理
产品计费
API说明
常见问题
相关协议
文档中心
模型服务模型研发自定义任务

自定义任务


自定义任务为多机多卡分布式训练模式,专为大企业、专业 AI 团队打造,可高效支撑大模型预训练、海量数据训练等高阶研发需求,提供高性能、高稳定性的算力支撑,有效规避算力不足引发的训练周期过长、任务中断等问题,保障大规模模型研发高效推进。

一、核心能力

  • 大规模分布式训练:支持使用多种开源深度学习框架进行离线大规模分布式深度训练,上千个节点同时训练,显著缩短训练时间。
  • 离线推理:通过自定义任务可以离线对模型进行离线推理,有效增加闲时GPU机器使用率,大大降低资源浪费。
  • 全流程可视化:任务执行过程中可全程跟踪状态与日志,支持通过 TensorBoard 查看训练指标。

二、适用场景

核心适配:模型研发后期的大规模训练、海量数据处理,需要突破单机算力瓶颈,侧重"高算力、分布式、可调度"。

  • 海量数据预处理任务

开发者可通过提交数据处理脚本,享受分布式计算带来的并行处理能力,轻松应对海量数据的预处理挑战,大幅提升数据处理效率,为后续训练环节奠定基础。

  • 分布式训练任务

开发者可直接提交训练代码,按需选择 GPU 资源数量,无需手动搭建分布式环境,平台会自动构建分布式训练集群,高效调度资源实现千卡级并行计算,大幅缩短训练周期,极大加速实验迭代效率,适配各类大规模模型训练需求。

三、操作指引

下文为操作示例,最佳实践请查看:自定义任务 ms-swift 最佳实践

💰 账户额度提示

1.欠费状态限制
a. 余额➕信用额度无法覆盖本次任务1小时使用时长所需费用时,将无法正常新建任务;若额度足够覆盖,允许新建任务
b. 欠费状态下运行中的任务将继续运行

2. 冻结状态限制
a. 冻结状态不支持新建任务
b. 允许用户查看自定义任务详情、终止及删除任务
c. 当账户状态由欠费变为冻结时,任务将自动终止

3. 冻结后使用平台能力
a. 冻结状态下用户无法新建,请先充值,使账号状态恢复正常
b. 在完成充值后,因冻结被关机的开发机【需用户重新提交任务】,当账户余额➕信用额度可覆盖任务1小时使用时长所需费用时,任务才能正常运行

3.1 新建自定义任务

前置准备

1.权限申请:

    • 主账号(即溪流湖账户)拥有账号下所有项目的访问/管理权限,无需权限申请;
    • 子账号:可由主账号为名下子账号设置某项目的只读/管理权限。

2.若账户余额不足,请先充值

创建步骤

确认权限及余额无问题后,在左侧导航栏中「模型定制」下方点击「模型研发」,切换至「自定义任务」Tab,点击「+ 新建自定义任务」进入创建页面,按以下说明填写参数:

基础信息

1.名称及描述:用户可根据自身需求配置实例名称及描述。

环境配置

1.计费方式:当前仅支持后付费模式,即按实际使用时长付费,适合短期、弹窗需求,性价比更高。后付费模式下实例运行成功后开始计,实例终止完成后停止计费。

2.实例配置:当前仅支持PyTorch框架,平台针对每种类型GPU提供了梯度丰富的CPU和内存规格,以帮助用户提高支配的灵活度及资源利用率。

3.镜像:当前仅支持ms-swift框架的预置镜像:ms-swift:3.9-ubuntu-24.04-cuda-12.8.1-python-3.12,其代表ms-swift版本为3.9、Ubuntu版本为24.04、CUDA版本为12.8.1、Python版本为3.12。

存储配置

1.系统盘:共100GB,用于存储开发过程中的文件,不额外收费。系统盘仅用于临时存储,删除开发机时,系统盘数据将一并删除,无法恢复,如果您需要永久性存储,可以选择共享存储。

2.共享存储:提供高可靠、高可用、高性能的分布式文件存储服务,可存储模型文件或训练数据,其数据不会因开发机删除、结束运行或异常而丢失。共享存储创建后开始计费,删除后停止计费。用户可在创建开发机页面选择共享存储时删除不需要的存储服务,或在列表页点击编辑按钮进行删除。

【⚠️ 提示:存在创建中、启动中、运行中的任务使用某个存储服务时,该存储服务无法删除】

任务配置

1.启动命令:Shell 类型,最大 8192 字符,用于指定任务启动时执行的命令。示例:自定义任务 ms-swift 最佳实践

2.环境变量:可配置任务运行所需的环境变量,以键值对形式输入。

3.最长运行时长:默认 7 天,支持切换分钟、小时、天为单位,范围:1 分钟 — 366 天。

【⚠️提示:从任务创建时间开始计时,如果任务在设置时间内未全部完成,平台将自动停止该任务】

具体计费说明请点击计费规则查看。

3.2 自定义任务列表

当项目下存在自定义任务时,用户可在「模型研发 - 自定义任务」页面查看该项目下的所有任务,包括开发机名称、状态、镜像等信息。

操作说明

  • TensorBoard:用户可查看任务训练结果
  • 日志:任务执行过程中,可全程查看日志详情
  • 用量:点击后将展示该实例规格的用量详情

点击某个任务名称将进入详情页面,详情页面展示该自定义任务的名称、地域、镜像、运行时长等基础信息、示例列表及日志。


上一篇:开发机 ms-swift 最佳实践下一篇:自定义任务 ms-swift 最佳实践
该篇文档内容是否对您有帮助?
有帮助没帮助