logologo
售前咨询
快手万擎(Vanchin)
开始使用
产品介绍
产品计费
API说明
控制台介绍
常见问题
相关协议
文档中心
产品计费模型计费说明

模型计费说明


本文为您介绍快手万擎平台模型服务不同功能的计费方式、计费逻辑、计费项等内容。如需查询各模型的计费公式及单价请参考模型服务价格。

一、在线推理计费

计费方式1:按 token 后付费

按 token 后付费,统计模型进行实时推理服务时消耗的 token 数量,按量后付费。

计费项

不同模型服务的计费项不同,具体请参考模型服务价格

  • 推理输入:将推理输入的内容(包括但不限于文字、图片)转化为 token 数进行计费,对应prompt_token。
  • 推理输出:将推理输出的内容(包括但不限于文字、图片)转化为 token 数进行计费,对应completion_token。

开启前缀缓存功能后,会增加缓存命中计费项。

  • 缓存命中:若您的请求被系统判断命中了 Cache,被命中的 token 会按照 cached_token 来计费,未被命中的 token 仍按照prompt_token计费。
计费说明
  • 免费额度:在免费额度内,在线推理服务消耗 token调用不会产生后付费账单,超出会产生后付费账单。可在费用中心-资源包管理查看每个模型的剩余额度。
  • 计费单价:查看价格
  • 如何付费:出具账单后实时结算扣款 充值入口
出账周期

按小时结算,账单出账时间通常在当前计费周期结束后1-2小时左右,具体以系统实际出账时间为准。例如:16:00-17:00 的账单约在 18:00-19:00 出账。

计费方式2: 按资源包预付费

预付费购买一定额度的 token 资源包,在有效期内,模型进行实时推理服务时消耗的 token 数量,以资源包的方式抵扣。

计费说明
  • 当前暂无标准资源包供线上购买,可根据您的实际用量需求定制,您可按「模型」+「在线推理」或「批量推理」维度进行资源包定制。
  • 资源包额度越大,折扣越大,如有需求可联系您的销售经理。点击咨询
资源包抵扣(免费额度 限时活动以资源包方式发放,遵循如下规则)

抵扣规则:

由于不同模型的输入、输出、缓存命中的成本不同,为保证每位用户的公平性,会基于用户使用的不同类型实际token消耗✖️抵扣系数进行资源包余量扣减。每个模型的资源包会以其输入价格为扣减系数1,输出及缓存会按照输入价格进行等比换算系数抵扣。

例如:模型A的输入价格为2元/百万token,输出价格为8元/百万token,输出价格为8元/百万token,命中缓存价格为0.4元/百万token;那么用户每消耗1个input_token则抵扣1个资源包token,每消耗1个output_token则抵扣4个资源包token ,每命中1个prefix_cache则抵扣0.2个资源包token 。

对于按长度分段计价的模型,以最小分段的输入token为系数1,其余类型的用量等比换算系数抵扣。

例如:模型B的单价为「0-32K」输入token为4元/百万token,输出价格为16元/百万token,命中缓存价格为0.8元/百万token;「32-128K」输入token为6元/百万token,输出价格为24元/百万token,命中缓存价格为1.2元/百万token;

那么用户每消耗1个「0-32K」input_token则抵扣1个资源包token,每消耗1个「0-32K」output_token则抵扣4个资源包token ,每命中1个「0-32K」prefix_cache则抵扣0.2个资源包token; 每消耗1个「32-128K」input_token则抵扣1.5个资源包token,每消耗1个「32-128K」output_token则抵扣6个资源包token ,每命中1个「32-128K」prefix_cache则抵扣0.3个资源包token;

抵扣周期:

按小时结算,账单出账时间通常在当前计费周期结束后1-2小时左右,具体以系统实际出账时间为准。例如:16:00-17:00 的账单约在 18:00-19:00 出账。出账后会自动使用资源包余量进行抵扣,若资源包余量不足以抵扣,会自动产生后付费账单。


二、批量推理计费

计费方式1:按 token 后付费

按 token 后付费,统计模型进行批量推理服务时消耗的 token 数量,按量后付费。

计费项

不同模型服务的计费项不同,模型服务价格

  • 推理输入:将推理输入的内容(包括但不限于文字、图片)转化为 token 数进行计费,对应prompt_token。
  • 推理输出:将推理输出的内容(包括但不限于文字、图片)转化为 token 数进行计费,对应completion_token。

开启前缀缓存功能后,会增加缓存命中计费项。

  • 缓存命中:若您的请求被系统判断命中了 Cache,被命中的 token 会按照 cached_token 来计费,价格为prompt_token单价的4折;未被命中的 token 仍按照prompt_token计费。
计费说明
  • 免费额度:批量推理功能不支持运营活动免费额度抵扣。
  • 计费单价:查看价格
  • 如何付费:出具账单后实时结算扣款 充值入口
出账周期

按小时结算,账单出账时间通常在当前计费周期结束后1-2小时左右,具体以系统实际出账时间为准。例如:16:00-17:00 的账单约在 18:00-19:00 出账。

计费方式2: 按资源包预付费

预付费购买一定额度的 token 资源包,在有效期内,模型进行实时推理服务时消耗的 token 数量,以资源包的方式抵扣。

计费说明
  • 当前暂无标准资源包供线上购买,可根据您的实际用量需求定制,您可按「模型」+「在线推理」或「批量推理」维度进行资源包定制。
  • 资源包额度越大,折扣越大,如有需求可联系您的销售经理。点击咨询
资源包抵扣

按小时结算,账单出账时间通常在当前计费周期结束后1-2小时左右,具体以系统实际出账时间为准。例如:16:00-17:00 的账单约在 18:00-19:00 出账。出账后会自动使用资源包余量进行抵扣,若资源包余量不足以抵扣,会自动产生后付费账单。


三、微调计费

计费方式:

按 token 后付费:统计模型进行训练时消耗的 token 数量,按量后付费。

计费项

统计模型进行训练时消耗的 token 数量。按微调方式和训练方法的不同,价格不同。

  • 微调方式:支持 SFT/DPO
  • 训练方法:支持 LoRA/FULL
计费公式

训练费用 =(训练集 tokens ) x  epoch(迭代轮次)x 微调单价

计费说明
  • 免费额度:微调功能不支持免费额度抵扣。
  • 计费单价:查看价格
  • 如何付费:出具账单后实时结算扣款。
出账周期

按小时计费,每小时出具上一小时费用账单。

账单出账时间通常在当前计费周期结束后的1-2小时左右,具体以系统实际出账时间为准。

例如:16:00-17:00 的账单预计在 18:00-19:00 出账。


四、模型单元

模型单元主要用于微调后模型的部署及推理,具备如下优势:

  • 提供专属独占算力,性能更稳定可靠;
  • 高质量性能资源,已搭配好模型,部署配置便捷简单;
  • 支持按小时计费,随时调整个数,灵活组合,减少资源浪费;

支持模型

参考 模型价格 列表,具体模型以控制台实际为准。

计费说明

计费方式

按小时后付费:按照实际购买时长付费,不足1小时,按1小时计。

计费说明
  • 计费特点:按照实际购买时长收费,计费粒度精确到小时。购买后持续计费,如需停止计费可在接入点详情页进行退订。举例:假设您在12:00下单成功,在13:40:31退订成功。则计费时长为 2 小时。
  • 计费粒度:小时。
  • 出账周期:​按小时结算,账单出账时间通常在当前计费周期结束后1-2小时左右,具体以系统实际出账时间为准。例如:16:00-17:00 的账单约在 18:00-19:00 出账。
  • 欠费说明:若欠费至账号冻结,将回收资源并停止计费。请及时续费或销毁资源。


上一篇:模型服务价格下一篇:资源包抵扣规则
该篇文档内容是否对您有帮助?
有帮助没帮助