

模型量化是一种模型压缩技术,通过降低模型参数的数值精度(如从 16bit 降至 8bit 或 4bit),在保持模型效果基本不变的前提下,大幅减少模型体积和计算资源需求,将模型中连续、高精度的数值(通常是32位浮点数)转换为离散、低精度的数值(如8位整数),从而大幅减少模型对存储和计算资源的需求,并提升推理速度。平台当前支持支持 AWQ 和 GPTQ 两种主流的训练后量化方法,使您能在保持模型核心能力的前提下,实现高效的模型部署。
价值 | 说明 |
显存节省 | 模型体积显著缩小,GPU 显存占用大幅降低 |
推理加速 | 计算量减少,推理响应速度提升 |
精度保持 | 经过优化的量化方案,精度损失很小 |
成本降低 | 所需 GPU 资源更少,硬件和云服务成本相应降低 |
万擎支持两种量化方式:
对比维度 | AWQ(W4A16) | GPTQ(Wfp8Afp8) |
权重精度 | 4bit 整数 | fp8 浮点 |
激活精度 | 16bit 浮点 | fp8 浮点 |
压缩比 | 较高(约 4 倍压缩) | 适中(约 2 倍压缩) |
显存节省 | 非常显著 | 显著 |
精度保持 | 略有损失,大部分场景可接受 | 精度保持更好 |
适用场景 | 成本敏感、显存有限 | 精度敏感、质量优先 |
选择建议:
支持模型
【⚠️注意:当前不支持用户自主上传外部模型后进行量化。】
背景:某企业使用 70B 参数大模型构建内部知识问答系统,效果良好但 GPU 成本较高。
目标:在尽量保持效果的前提下,降低部署和推理成本。
Step 1:选择要量化的模型
在万擎平台模型列表中,选择当前使用的 32B 模型。
Step 2:选择量化方式
Step 3:创建量化任务
在平台上创建量化任务,系统自动完成量化过程。
Step 4:部署量化后模型
将量化后的模型部署为推理接入点,替换原有的全精度模型。
预期效果:GPU 显存占用和推理成本可大幅降低,推理速度相应提升,模型效果损失较小。具体数据视所选量化方式和业务场景而定。建议量化后进行业务测试,确认效果满足需求后再正式切换。
左侧导航页选择模型定制 - 模型量化,点击「新建量化任务」,进入新建量化任务页面:
当项目下存在量化任务时,用户可在模型量化页面查看该项目下的所有量化任务信息,点击某个任务名称将进入该任务详情,可查看任务的详情信息及任务日志。