配置项	说明
模型	当前暂不支持预置模型评测，仅可选择用户已部署的模型（含用户上传的模型）
场景	支持在线场景/离线场景在线：模拟实时用户请求场景，支持并发请求、动态 QPS 调节（QPS受模型性能和并发影响，可能会低于设置的QPS）。离线：模拟批量任务处理场景，支持一次性提交大量数据，测试模型吞吐量与资源占用。
数据来源	支持评测集/自动生成数据集：进入左侧导航栏->数据集->创建数据集（选择评测集，下载模版按格式）自动生成：允许设置输入token范围和占比；允许设置数据数量和输出token长度（尽量避免超长token，否则会影响模型的性能）；支持不同类型的分词器，一般选择和模型同名的分词器。
发压方式	离线推理：并发进程数：每个进程独立处理一部分推理任务，多个进程可以并行执行，充分利用系统资源。持续时长：默认压测时长为0，即不限制最大压测时长，任务将在数据集请求完成后自动停止。若设置了压测时长，任务会按照指定时长持续运行，若在此期间数据集已请求完毕，则会循环重复请求。超时时间：单条请求的超时时间，超时后则改请求失败，影响最终的成功率。在线推理：固定压力：以恒定压力请求模型。压力值为请求的QPS；持续时长、超时时间同上。阶梯压力：以递增压力请求模型。初始压力为最低请求的QPS；峰值压力为最高请求QPS；每步增加为步长，即每一步增加的QPS；每步时长为每一步压测的持续时间，定义同上述持续时长。
SLO配置	TTFT相关：首token时延。表示从发送请求到收到第一个包的时间。一个包中包含1个或1个以上token。单位ms TPOT相关：由于一个包中包含1个或1个以上token，这里主要描述包间时延，表示返回包之间的时间间隔。单位ms 若配置了SLO, 当性能满足配置条件时，任务会退出并透露失败原因。

查看评测执行详情

评测结果

压测完成后会自动生成指标报告

指标名	指标说明
TPM	Token Per Minute，每分钟总吞吐token（输入token+输出token）
RPM	Requests Per Minute，每分钟可处理请求数
TTFT	平均TTFT：平均请求的首token时延 P50 TTFT：50%请求的首token时延 P90 TTFT：90%请求的首token时延 P95 TTFT：95%请求的首token时延 P99 TTFT：99%请求的首token时延
TPOT	平均TPOT：平均请求的token生成时间 P50 TPOT：50%请求的token生成时间 P90 TPOT：90%请求的token生成时间 P95 TPOT：95%请求的token生成时间 P99 TPOT：99%请求的token生成时间
E2EL	平均E2EL：请求平均端到端的全链路时延 P50 E2EL：50%请求平均端到端的全链路时延 P90 E2EL：90%请求平均端到端的全链路时延 P95 E2EL：95%请求平均端到端的全链路时延 P99 E2EL：99%请求平均端到端的全链路时延

该篇文档内容是否对您有帮助？

有帮助没帮助

关于我们

支持与服务

法律支持

联系我们

友情链接