

历史发放免费资源包会优先抵扣,模型的限时免费活动会作补充,超出资源包后继续使用不计费。
系统会根据实际用量进行出账,限时免费期的账单会自动减免为0,不会对余额产生实际扣费行为,请放心使用。请及时关注免费到期时间,避免产生真正的欠费账单影响您的使用。
在调用模型推理服务时,会将输入内容进行分词(tokenize),转化为模型可以理解的 token ,经过模型处理后,同样输出 token,并转化为您需要的文本或者其他内容载体。而模型处理(包括输入、输出)的 token 数量会被作为模型推理服务用量的一个重要计量单位。
文本的 token 计算:由于不同模型采用的分词策略不同,同一段文本可能会被转化为不同数量的 token。会区分输入、输出token,其中部分模型支持缓存功能,输入token会分为输入-缓存命中token、输入-缓存未命中token,进而进行不同的价格计费。
多数模型都支持,具体请参见模型计费价格,默认情况下 cached_tokens 能力都是打开的,且暂不支持用户主动配置。
当前万擎服务开通的计费方式仅支持「按token」后付费,赠送的免费额度资源包会优先抵扣,耗尽后按照支付协议会进行token账单出账,若余额未及时充值会产生欠费并冻结服务,充值后会自动解冻。
伴随平台能力的逐步完善,即将上线更友好的费用管理能力:支持仅消耗资源包/优先资源包+超出按量付费的两种方式供用户选择与随时切换。
对于开通后付费的用户,账户欠费后仍持续出账,原因主要有两点:
为什么实际token消耗与资源包token消耗量不一致?
资源包按模型提供,支持输入、输出、缓存等token消耗的抵扣,不同模型的输入、输出、缓存命中的成本不同。
为保证每位用户的公平性,系统会基于用户实际token消耗类型✖️抵扣系数进行资源包余量扣减,一般每个模型的资源包token会以其「输入」价格为基准设定扣减系数1,「输出」及「缓存」会按照API标准价格进行等比换算系数进行抵扣,因此每个用户的具体会话内容不同,实际消耗速度也不一样。 详细可参见资源包抵扣规则
陆续更新……