

模型蒸馏(Model Distillation) 通过将大型、复杂模型(教师模型)的知识转移到小型、简单模型(学生模型),获得推理能力和性能兼备的轻量级模型,从而有效得降低推理成本,提高推理速度。当前平台提供数据蒸馏方式,后续将增加知识蒸馏。
蒸馏过程通常伴随一定的性能损失,如果您对精度下降完全无法接受,请慎重评估或考虑其他方案。
当目标设备计算资源有限时,通过蒸馏可将大模型压缩为轻量级模型,包括手机端应用、IoT 嵌入式设备、浏览器端推理等,在保持模型精度同时满足设备的内存和算力约束。
当线上业务使用的模型推理成本过高,且业务规模较大时,蒸馏能显著降低运营成本,适合已有成熟大模型、需要大规模部署的场景。
对于实时性要求高的应用,如实时翻译、语音交互、在线推荐排序等,蒸馏可在保持较高精度的同时减少推理延迟,提升服务响应速度和吞吐量。
当某个大模型在特定领域(如医疗、法律、金融)表现优异,但需要将该能力迁移到更轻量、更易部署的模型上时,蒸馏能帮助学生模型继承教师模型的专业知识。
当需要用一个模型服务多个相关任务时,可通过蒸馏将多个教师模型的知识整合到一个学生模型中,减少模型维护成本。
前置准备
基础信息
构建数据
训练学生模型
模型发布
计量计费
支持模型列表
模型类别 | 模型名称 |
教师模型 | DeepSeek R1 |
DeepSeek V3 | |
DeepSeek-V3.2 | |
Qwen3-235B-A22B-Thinking | |
学生模型 | Qwen3-0.6B |
Qwen3-1.7B | |
Qwen3-4B | |
Qwen3-8B | |
Qwen3-14B |
参数配置列表
超参数 | 参数说明 |
学习率 | 控制模型参数更新步长的速度。过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。 |
训练轮次 | 控制模型训练过程中遍历整个数据集的次数。建议设置在1-5之间,小数据集可增大Epoch以促进模型收敛。 |
单卡训练批大小 | 每张GPU上的训练批大小(batch size per GPU)。 |
单卡评估批大小 | 每张GPU上的评估批大小。 |
梯度累积步数 | 指模型在更新一次参数前,连续累积多少个小批次(batch)的梯度,从而在不增加显存占用的情况下,实现更大的等效 batch size。全局有效批大小 = 每张GPU的batch size × GPU数量 × 梯度累积步数 |
评估间隔比例 | 按总训练步数的比例进行评估(0~1)。大于0时优先生效,例如0.1表示每10%训练进度评估一次。 |
保存间隔比例 | 按总训练步数比例保存模型(0~1)。大于0时优先生效。 |
最大Checkpoint数量 | 最多保留的模型checkpoint数量,超过后自动删除最旧文件。 |
学习率预热比例 | 学习率预热步数占总训练步数的比例(0~1)。学习率预热可以提高模型稳定性和收敛速度。 |
输入最大长度 | 输入token最大长度,超过将被截断。通常应小于等于模型的最大context长度,超过该长度的数据在训练将被自动截断。如果数据集中的文本普遍较短,建议选择较短的序列长度以提高计算效率。 |
LoRA秩(Rank) | LoRA低秩矩阵的秩(r)。值越大表示可训练参数越多,表达能力更强,但显存和计算开销增加。选择全量训练时该参数无效。 |
LoRA缩放系数 | LoRA缩放因子(alpha),实际缩放比例为 alpha / rank。通常设为 rank 的1~4倍。选择全量训练时该参数无效。 |
当项目下存在蒸馏任务时,用户可在模型蒸馏页面查看该项目下的所有蒸馏任务信息,点击某个任务名称将进入该任务详情,可查看任务的详情信息、效果指标、任务日志。
蒸馏后的模型支持部署、精调、量化。
任务列表
用户可查看蒸馏任务的状态及关联的批量推理任务等信息,状态说明如下:
状态 | 说明 |
准备中 | 仅离线数据存在该状态,当前教师模型尚未完成推理 |
待训练 | 仅手动校验存在该状态,蒸馏数据构建完成后需人工确认开启训练 |
排队中 | 等待训练资源 |
运行中 | 训练进行中,用户可查看任务剩余时间 |
已完成 | 训练成功,用户可查看学生模型 |
已失败 | 训练失败,平台将为用户展示具体的失败原因 |
已终止 | 用户手动终止 |
任务详情
任务详情页面展示该蒸馏任务的详细配置信息:
效果指标
【⚠️仅在任务开始训练后支持查看效果指标】
用户可通过平台提供的TensorBoard查看验证集和训练集的指标情况,包括loss(损失函数)、learning rate(学习率)、grad norm(梯度范数)等。
训练日志
【⚠️若任务暂未开始 ,将无法查看训练日志】
在任务日志页面,您可查看该蒸馏任务的日志详情,包括数据集处理、模型准备、训练任务执行过程等: