

本文为您介绍快手万擎平台模型服务不同功能的计费方式、计费逻辑、计费项等内容。如需查询各模型的计费公式及单价请参考模型服务价格。
按 token 后付费,统计模型进行实时推理服务时消耗的 token 数量,按量后付费。
不同模型服务的计费项不同,具体请参考模型服务价格。
开启前缀缓存功能后,会增加缓存命中计费项。
按小时结算,账单出账时间通常在当前计费周期结束后1-2小时左右,具体以系统实际出账时间为准。例如:16:00-17:00 的账单约在 18:00-19:00 出账。
预付费购买一定额度的 token 资源包,在有效期内,模型进行实时推理服务时消耗的 token 数量,以资源包的方式抵扣。
抵扣规则:
由于不同模型的输入、输出、缓存命中的成本不同,为保证每位用户的公平性,会基于用户使用的不同类型实际token消耗✖️抵扣系数进行资源包余量扣减。每个模型的资源包会以其输入价格为扣减系数1,输出及缓存会按照输入价格进行等比换算系数抵扣。
例如:模型A的输入价格为2元/百万token,输出价格为8元/百万token,输出价格为8元/百万token,命中缓存价格为0.4元/百万token;那么用户每消耗1个input_token则抵扣1个资源包token,每消耗1个output_token则抵扣4个资源包token ,每命中1个prefix_cache则抵扣0.2个资源包token 。
对于按长度分段计价的模型,以最小分段的输入token为系数1,其余类型的用量等比换算系数抵扣。
例如:模型B的单价为「0-32K」输入token为4元/百万token,输出价格为16元/百万token,命中缓存价格为0.8元/百万token;「32-128K」输入token为6元/百万token,输出价格为24元/百万token,命中缓存价格为1.2元/百万token;
那么用户每消耗1个「0-32K」input_token则抵扣1个资源包token,每消耗1个「0-32K」output_token则抵扣4个资源包token ,每命中1个「0-32K」prefix_cache则抵扣0.2个资源包token; 每消耗1个「32-128K」input_token则抵扣1.5个资源包token,每消耗1个「32-128K」output_token则抵扣6个资源包token ,每命中1个「32-128K」prefix_cache则抵扣0.3个资源包token;
抵扣周期:
按小时结算,账单出账时间通常在当前计费周期结束后1-2小时左右,具体以系统实际出账时间为准。例如:16:00-17:00 的账单约在 18:00-19:00 出账。出账后会自动使用资源包余量进行抵扣,若资源包余量不足以抵扣,会自动产生后付费账单。
按 token 后付费,统计模型进行批量推理服务时消耗的 token 数量,按量后付费。
不同模型服务的计费项不同,模型服务价格。
开启前缀缓存功能后,会增加缓存命中计费项。
按小时结算,账单出账时间通常在当前计费周期结束后1-2小时左右,具体以系统实际出账时间为准。例如:16:00-17:00 的账单约在 18:00-19:00 出账。
预付费购买一定额度的 token 资源包,在有效期内,模型进行实时推理服务时消耗的 token 数量,以资源包的方式抵扣。
按小时结算,账单出账时间通常在当前计费周期结束后1-2小时左右,具体以系统实际出账时间为准。例如:16:00-17:00 的账单约在 18:00-19:00 出账。出账后会自动使用资源包余量进行抵扣,若资源包余量不足以抵扣,会自动产生后付费账单。
按 token 后付费:统计模型进行训练时消耗的 token 数量,按量后付费。
统计模型进行训练时消耗的 token 数量。按微调方式和训练方法的不同,价格不同。
训练费用 =(训练集 tokens ) x epoch(迭代轮次)x 微调单价
按小时计费,每小时出具上一小时费用账单。
账单出账时间通常在当前计费周期结束后的1-2小时左右,具体以系统实际出账时间为准。
例如:16:00-17:00 的账单预计在 18:00-19:00 出账。
模型单元主要用于微调后模型的部署及推理,具备如下优势:
参考 模型价格 列表,具体模型以控制台实际为准。
按小时后付费:按照实际购买时长付费,不足1小时,按1小时计。