本文为您介绍快手万擎平台模型服务不同功能的计费方式、计费逻辑、计费项等内容。如需查询各模型的计费公式及单价请参考模型服务价格。
一、在线推理计费
计费方式1:按 token 后付费
按 token 后付费,统计模型进行实时推理服务时消耗的 token 数量,按量后付费。
计费项
不同模型服务的计费项不同,具体请参考模型服务价格。
- 推理输入:将推理输入的内容(包括但不限于文字、图片)转化为 token 数进行计费,对应prompt_token。
- 推理输出:将推理输出的内容(包括但不限于文字、图片)转化为 token 数进行计费,对应completion_token。
开启前缀缓存功能后,会增加缓存命中计费项。
- 缓存命中:若您的请求被系统判断命中了 Cache,被命中的 token 会按照 cached_token 来计费,价格为prompt_token单价4折;未被命中的 token 仍按照prompt_token计费。
计费说明
- 免费额度:在免费额度内,在线推理服务消耗 token调用不会产生后付费账单,超出会产生后付费账单。可在费用中心-资源包管理查看每个模型的剩余额度。
- 计费单价:查看价格
- 如何付费:出具账单后实时结算扣款 充值入口(地址待补充)
出账周期
按小时结算,账单出账时间通常在当前计费周期结束后1-2小时左右,具体以系统实际出账时间为准。例如:16:00-17:00 的账单约在 18:00-19:00 出账。
计费方式2: 按资源包预付费
预付费购买一定额度的 token 资源包,在有效期内,模型进行实时推理服务时消耗的 token 数量,以资源包的方式抵扣。
计费说明
- 当前暂无标准资源包供线上购买,可根据您的实际用量需求定制,您可按「模型」+「在线推理」或「批量推理」维度进行资源包定制。
- 资源包额度越大,折扣越大,如有需求可联系您的销售经理。点击咨询(配置超链接)
资源包抵扣
按小时结算,账单出账时间通常在当前计费周期结束后1-2小时左右,具体以系统实际出账时间为准。例如:16:00-17:00 的账单约在 18:00-19:00 出账。出账后会自动使用资源包余量进行抵扣,若资源包余量不足以抵扣,会自动产生后付费账单。
二、批量推理计费
计费方式1:按 token 后付费
按 token 后付费,统计模型进行批量推理服务时消耗的 token 数量,按量后付费。
计费项
不同模型服务的计费项不同,模型服务价格。
- 推理输入:将推理输入的内容(包括但不限于文字、图片)转化为 token 数进行计费,对应prompt_token。
- 推理输出:将推理输出的内容(包括但不限于文字、图片)转化为 token 数进行计费,对应completion_token。
开启前缀缓存功能后,会增加缓存命中计费项。
- 缓存命中:若您的请求被系统判断命中了 Cache,被命中的 token 会按照 cached_token 来计费,价格为prompt_token单价的4折;未被命中的 token 仍按照prompt_token计费。
计费说明
- 免费额度:批量推理功能不支持运营活动免费额度抵扣。
- 计费单价:查看价格
- 如何付费:出具账单后实时结算扣款 充值入口(地址待补充)
出账周期
按小时结算,账单出账时间通常在当前计费周期结束后1-2小时左右,具体以系统实际出账时间为准。例如:16:00-17:00 的账单约在 18:00-19:00 出账。
计费方式2: 按资源包预付费
预付费购买一定额度的 token 资源包,在有效期内,模型进行实时推理服务时消耗的 token 数量,以资源包的方式抵扣。
计费说明
- 当前暂无标准资源包供线上购买,可根据您的实际用量需求定制,您可按「模型」+「在线推理」或「批量推理」维度进行资源包定制。
- 资源包额度越大,折扣越大,如有需求可联系您的销售经理。点击咨询
资源包抵扣
按小时结算,账单出账时间通常在当前计费周期结束后1-2小时左右,具体以系统实际出账时间为准。例如:16:00-17:00 的账单约在 18:00-19:00 出账。出账后会自动使用资源包余量进行抵扣,若资源包余量不足以抵扣,会自动产生后付费账单。