在该板块中,用户可查看账户下推理接入点总数、接入模型总数、调用总量、失败总量、平均调用时长、平均首token时延等信息,也可自定义查询周期,根据需要进行查询。
在线推理
推理点维度
该板块对用户当前资源的使用进行实时监控,用户可查看以下信息:
页面截图 | 参数说明 |

| - 项目:默认为当前项目,用户可切换所属项目,可切换为该账号下所有空间项目且支持多选;
- 周期:支持自定义查询周期,调用监控最长保留一年,最大查询时间跨度为31天;
- 推理接入点总数:筛选条件下,所有有调用量的接入点的数量;
- 接入模型总数:筛选条件下,所有有调用量的模型的数量;
- 调用总量:筛选条件下,发送请求的总数;
- 失败总量:筛选条件下,发送请求失败的总数;
- 平均调用时长:筛选条件下,所有调用耗时的平均值;
- 平均首token时延:筛选条件下,所有调用的首包时长的平均值。
|
监控详情
用户在「调用监控」页选中某个推理点后,将展示该推理点的监控详情:
页面截图 | 参数说明 |

| 卡片各指标说明: - 聚合:页面默认展示该推理点按分钟聚合的近7天调用数据,用户可选择按天/小时/分钟聚合;
- 周期:支持自定义查询周期,调用监控最长保留一年,最大查询时间跨度为31天;
- API Key:默认选择全部,用户可选择查询周期内调用过的API Key;
- 调用总量:筛选条件下,发送请求的总数;
- 失败总量:筛选条件下,发送请求失败的总数;
- 消耗token总数:筛选条件下,所有调用输入/输出消耗token的总数;
- 输入token总数:筛选条件下,所有调用输入消耗token的总数;
- 输出token总数:筛选条件下,所有调用输出消耗token的总数;
- Prompt cache token总数:筛选条件下,所有调用Prompt cache token的总数。
曲线图各指标说明: - 调用量(次):按聚合维度展示统计周期内的各项指标数据:调用总量、调用成功次数、调用失败次数、Prompt cache次数;
- 消耗token数(tokens):按聚合维度展示筛选条件下的各项指标数据,:token总数、输入token数、输出token数、Prompt cache token数;
- 模型调用耗时(秒):按聚合维度展示筛选条件下调用耗时的平均值;
- 首次响应耗时(秒):按聚合维度展示筛选条件下调用首包时长的平均值;
- Token输出速度(个/秒)按聚合维度展示筛选条件下调用平均输出token的速度;
- 调用失败率(百分比):按聚合维度展示筛选条件下调用失败率(调用失败/调用总量)。
|
批量推理
批量推理点
该板块对用户当前资源的使用进行实时监控,用户可查看以下信息:
页面截图 | 参数说明 |

| - 项目:默认为当前项目,用户可切换所属项目,可切换为该账号下所有空间项目且支持多选;
- 周期:支持自定义查询周期,调用监控最长保留一年,最大查询时间跨度为31天;
- 推理接入点总数:筛选条件下,所有接入点的数量;
- 接入模型总数:筛选条件下,所有接入模型的数量;
- 调用总量:筛选条件下,发送请求的总数;
- 失败总量:筛选条件下,发送请求失败的总数;
- 平均调用时长:筛选条件下,所有调用耗时的平均值;
- 消耗token总数:筛选条件下,所有调用输入/输出消耗token的总数;
- 输入token总数:筛选条件下,所有调用输入消耗token的总数;
- 输出token总数:筛选条件下,所有调用输出消耗token的总数。
|
监控详情
用户在「调用监控」页选中某个推理点后,将展示该批量推理点的监控详情:
页面截图 | 参数说明 |

| 卡片各指标说明: - 聚合:页面默认展示该推理点按分钟聚合的近7天调用数据,用户可选择按天/小时/分钟聚合;
- 周期:支持自定义查询周期,调用监控最长保留一年,最大查询时间跨度为31天;
- API Key:默认选择全部,用户可选择查询周期内调用过的API Key;
- 调用总量:筛选条件下,发送请求的总数;
- 失败总量:筛选条件下,发送请求失败的总数;
- 消耗token总数:筛选条件下,所有调用输入/输出消耗token的总数;
- 输入token总数:筛选条件下,所有调用输入消耗token的总数;
- 输出token总数:筛选条件下,所有调用输出消耗token的总数。
曲线图各指标说明: - 调用量(次):按聚合维度展示统计周期内的各项指标数据:调用总量、调用成功、调用失败;
- 消耗token数(tokens):按聚合维度展示筛选条件下的各项指标数据:token总数、输入token数、输出token数;
- 调用失败率(百分比):按聚合维度展示筛选条件下调用失败率(调用失败/调用总量)。
|
批量推理任务
该板块对用户当前资源的使用进行实时监控,用户可查看以下信息:
页面截图 | 参数说明 |

| - 项目:默认为当前项目,用户可切换所属项目,可切换为该账号下所有空间项目且支持多选;
- 周期:支持自定义查询周期,调用监控最长保留一年,最大查询时间跨度为31天;
- 接入模型总数:筛选条件下,所有接入模型的数量;
- 调用总量:筛选条件下,发送请求的总数;
- 失败总量:筛选条件下,发送请求失败的总数;
- 消耗token总数:筛选条件下,所有调用输入/输出消耗token的总数;
- 输入token总数:筛选条件下,所有调用输入消耗token的总数;
- 输出token总数:筛选条件下,所有调用输出消耗token的总数。
|
监控详情
用户在「调用监控」页选中某个批量推理任务后,将展示该批量推理任务的监控详情:
页面截图 | 参数说明 |

| 卡片各指标说明: - 调用总量:筛选条件下,发送请求的总数;
- 失败总量:筛选条件下,发送请求失败的总数;
- 消耗token总数:筛选条件下,所有调用输入/输出消耗token的总数;
- 输入token总数:筛选条件下,所有调用输入消耗token的总数;
- 输出token总数:筛选条件下,所有调用输出消耗token的总数。
曲线图各指标说明: - 调用量(次):调用总量、调用成功、调用失败;
- 消耗token数(tokens):按聚合维度展示筛选条件下的各项指标数据:token总数、输入token数、输出token数;
- 调用失败率(百分比):按聚合维度展示筛选条件下调用失败率(调用失败/调用总量)。
|