logologo
售前咨询
快手万擎(Vanchin)
开始使用
产品介绍
模型介绍
控制台介绍
模型定制
模型托管
模型评测
数据管理
产品计费
API说明
常见问题
相关协议
文档中心
控制台介绍模型定制模型蒸馏

模型蒸馏


模型蒸馏(Model Distillation) 通过将大型、复杂模型(教师模型)的知识转移到小型、简单模型(学生模型),获得推理能力和性能兼备的轻量级模型,从而有效得降低推理成本,提高推理速度。当前平台提供数据蒸馏方式,后续将增加知识蒸馏。

  • 数据蒸馏:通过从大数据集中提炼“合成样本”,使用这些精炼的数据训练模型,学生模型学习教师模型产生的问答结果,可以达到与使用原始大数据类似的性能,具有简单易上手的特点,适合蒸馏闭源的商用模型。
  • 知识蒸馏:学生模型学习真实标签(硬标签)和教师模型的输出概率分布(软标签),能够最大化继承教师模型能力,适合蒸馏开源大模型。


核心优势

  • 成本更低:小模型推理成本显著降低
  • 速度更快:推理时延更优,响应更迅速
  • 效果接近:特定任务上效果趋近旗舰模型
  • 轻量部署:模型体积小,易于部署和迁移


适用场景

蒸馏过程通常伴随一定的性能损失,如果您对精度下降完全无法接受,请慎重评估或考虑其他方案。
  • 资源受限

当目标设备计算资源有限时,通过蒸馏可将大模型压缩为轻量级模型,包括手机端应用、IoT 嵌入式设备、浏览器端推理等,在保持模型精度同时满足设备的内存和算力约束。

  • 高成本推理优化

当线上业务使用的模型推理成本过高,且业务规模较大时,蒸馏能显著降低运营成本,适合已有成熟大模型、需要大规模部署的场景。

  • 低延迟需求

对于实时性要求高的应用,如实时翻译、语音交互、在线推荐排序等,蒸馏可在保持较高精度的同时减少推理延迟,提升服务响应速度和吞吐量。

  • 领域知识迁移

当某个大模型在特定领域(如医疗、法律、金融)表现优异,但需要将该能力迁移到更轻量、更易部署的模型上时,蒸馏能帮助学生模型继承教师模型的专业知识。

  • 多任务整合

当需要用一个模型服务多个相关任务时,可通过蒸馏将多个教师模型的知识整合到一个学生模型中,减少模型维护成本。


新建任务操作说明

前置准备

  1. 权限申请:
  • 主账号(即溪流湖账户)拥有账号下所有项目的访问/管理权限,无需权限申请,主账号可对所有蒸馏任务进行修改、删除;
  • 子账号:可由主账号为名下子账号设置某项目的只读/管理权限,子账号不支持删除主账号新建的蒸馏任务;
  1. 若账户余额不足,请先充值
  2. 确认权限及余额无问题后,在左侧导航栏中「模型定制」下方点击「模型蒸馏」进入产品页面,点击「+新建蒸馏任务」进入创建页面,在创建页面填写相关参数,具体参数如下:

基础信息

  1. 名称及描述:用户可自定义蒸馏任务名称及描述;
  2. 任务类型:当前仅支持文本生成类,默认选中。

构建数据

  1. 蒸馏方式:当前仅支持数据蒸馏,默认选中;
  2. 选择教师模型:用户可从平台提供的预置模型中进行选择,支持蒸馏的模型列表可在下方查看;
  3. 选择数据集:支持选择预置数据集或自定义数据集;
  4. 选择训练数据校验方式:用户可选择自动校验或手动校验,默认选中自动校验;
  • 自动校验:教师模型推理完成后自动校验蒸馏数据构建结果,若通过校验自动进入训练流程;
  • 手动校验:教师模型推理完成后后人工查看数据集进行校验,需手动点击开始训练,进入训练流程。蒸馏数据构建完成后,在蒸馏任务列表中,任务状态会变为待训练,用户确认数据质量符合预期后,单击开始训练继续执行学生模型训练。

训练学生模型

  1. 选择学生模型:用户可从平台提供的预置模型中进行选择,支持蒸馏的模型列表可在下方查看;
  2. 选择训练方法:用户可选择全量更新或LoRA,默认选中全量更新;
  • 全量更新:指在预训练模型的基础上,对其全部可训练参数进行重新训练,使模型整体适配新的任务或数据分布;
  • LoRA:一种参数高效微调方法,在固定预训练大模型本身参数的基础上,保留自注意力模块中原始权重矩阵,对权重矩阵进行低秩分解,训练过程中只更新低秩部分的参数。
  1. 参数配置:选择的基础模型不同、训练方法不同,对应的超参数及参数值不同,具体参数见下方表格;
  2. 选择验证集:可从当前选择的数据集中随机拆分作为验证集,或选择指定数据集作为验证集,默认从当前训练集中随机拆分5%作为验证集。

模型发布

  1. 选择发布方式
  • 发布为新模型:此次训练的模型发布后使用新的模型名称;
  • 已有模型新版本:同系列模型仅更新版本,不更新模型名称。

计量计费

  1. 计量计费:蒸馏配置选择完毕后,页面右上方将展示计费详情。计费规则详情请查看:模型计费说明

支持模型列表

模型类别

模型名称

教师模型

DeepSeek R1

DeepSeek V3

DeepSeek-V3.2

Qwen3-235B-A22B-Thinking

学生模型

Qwen3-0.6B

Qwen3-1.7B

Qwen3-4B

Qwen3-8B

Qwen3-14B

参数配置列表

超参数

参数说明

学习率

控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。

训练轮次

控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。

单卡训练批大小

每张GPU上的训练批大小(batch size per GPU)。

单卡评估批大小

每张GPU上的评估批大小。

梯度累积步数

指模型在更新一次参数前,连续累积多少个小批次(batch)的梯度,从而在不增加显存占用的情况下,实现更大的等效 batch size。全局有效批大小 = 每张GPU的batch size × GPU数量 × 梯度累积步数

评估间隔比例

按总训练步数的比例进行评估(0~1)。大于0时优先生效,例如0.1表示每10%训练进度评估一次。

保存间隔比例

按总训练步数比例保存模型(0~1)。大于0时优先生效。

最大Checkpoint数量

最多保留的模型checkpoint数量,超过后自动删除最旧文件。

学习率预热比例

学习率预热步数占总训练步数的比例(0~1)。学习率预热可以提高模型稳定性和收敛速度。

输入最大长度

输入token最大长度,超过将被截断。通常应小于等于模型的最大context长度,超过该长度的数据在训练将被自动截断。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。

LoRA秩(Rank)

LoRA低秩矩阵的秩(r)。值越大表示可训练参数越多,表达能力更强,但显存和计算开销增加。选择全量训练时该参数无效。

LoRA缩放系数

LoRA缩放因子(alpha),实际缩放比例为 alpha / rank。通常设为 rank 的1~4倍。选择全量训练时该参数无效。


查看蒸馏任务

当项目下存在蒸馏任务时,用户可在模型蒸馏页面查看该项目下的所有蒸馏任务信息,点击某个任务名称将进入该任务详情,可查看任务的详情信息、效果指标、任务日志。

蒸馏后的模型支持部署、精调、量化。

任务列表

用户可查看蒸馏任务的状态及关联的批量推理任务等信息,状态说明如下:

状态

说明

准备中

仅离线数据存在该状态,当前教师模型尚未完成推理

待训练

仅手动校验存在该状态,蒸馏数据构建完成后需人工确认开启训练

排队中

等待训练资源

运行中

训练进行中,用户可查看任务剩余时间

已完成

训练成功,用户可查看学生模型

已失败

训练失败,平台将为用户展示具体的失败原因

已终止

用户手动终止

任务详情

任务详情页面展示该蒸馏任务的详细配置信息:

效果指标

【⚠️仅在任务开始训练后支持查看效果指标】

用户可通过平台提供的TensorBoard查看验证集和训练集的指标情况,包括loss(损失函数)、learning rate(学习率)、grad norm(梯度范数)等。

训练日志

【⚠️若任务暂未开始 ,将无法查看训练日志】

在任务日志页面,您可查看该蒸馏任务的日志详情,包括数据集处理、模型准备、训练任务执行过程等:


上一篇:模型精调下一篇:模型量化
该篇文档内容是否对您有帮助?
有帮助没帮助