logologo
售前咨询
快手万擎(Vanchin)
开始使用
产品介绍
模型介绍
控制台介绍
模型定制
模型评测
模型托管
产品计费
API说明
常见问题
相关协议
文档中心
控制台介绍模型定制模型量化

模型量化


模型量化是指在不严重损失模型精度的情况下,将模型中连续、高精度的数值(通常是32位浮点数)转换为离散、低精度的数值(如8位整数),从而大幅减少模型对存储和计算资源的需求,并提升推理速度。平台当前支持支持 AWQGPTQ 两种主流的训练后量化方法,使您能在保持模型核心能力的前提下,实现高效的模型部署。

核心价值

  • 内存节省:模型大小在量化后降低,所需存储空间减少,部署所需资源减少。
  • 推理加速:模型推理吞吐提升,模型推理速度提升。
  • 质量保持:通过先进算法,在精度损失极小的情况下完成压缩。

量化介绍

量化方式

  • AWQ:4bit量化权重,逐张量量化,基于激活值分布挑选显著权重,针对重要权重增加筛选和保护机制,适用于在小显存GPU部署场景。
  • GPTQ:8bit量化权重和激活值,逐张量量化,通过逐行量化权重矩阵来压缩模型,适用于最求精度的同时提高推理性能。

量化位宽

  • AWQ:W4A16,即权重Weight-int4,激活Activation-int16
  • GPTQ:Wfp8Afp8,即权重Weight-fp8,激活Activation-fp8

支持量化的模型类型

  • 预置模型:支持用户选择万擎平台提供的基础模型进行量化后部署;
  • 定制模型:支持用户选择微调过的模型进行量化后部署,当前暂不支持选择用户自主上传模型。

操作说明

创建量化任务

左侧导航页选择模型定制 - 模型量化,点击「新建量化任务」,进入新建量化任务页面:

  1. 填写任务名称、描述;
  2. 选择需进行量化的模型,当前支持平台预置模型及用户微调后模型,暂不支持上传模型;
  3. 选择量化方式,量化位宽将根据您选择的量化方式自动填充;
  4. 选择数据集,若量化来源为微调后的模型,则默认填充微调的数据集,您可选择切换为其他数据集;
  5. 选择发布方式并完成基础信息填写。

查看量化任务

当项目下存在量化任务时,用户可在模型量化页面查看该项目下的所有量化任务信息,点击某个任务名称将进入该任务详情,可查看任务的详情信息及任务日志。

上一篇:性能评测下一篇:数据集
该篇文档内容是否对您有帮助?
有帮助没帮助