logologo
售前咨询
快手万擎
开始使用
模型介绍
产品计费
API说明
控制台介绍
相关协议
文档中心
控制台介绍调用监控

调用监控


在该板块中,用户可查看账户下推理接入点总数、接入模型总数、调用总量、失败总量、平均调用时长、平均首token时延等信息,也可自定义查询周期,根据需要进行查询。

在线推理

推理点维度

该板块对用户当前资源的使用进行实时监控,用户可查看以下信息:

页面截图

参数说明

  1. 项目:默认为当前项目,用户可切换所属项目,可切换为该账号下所有空间项目且支持多选;
  2. 周期:支持自定义查询周期,调用监控最长保留一年,最大查询时间跨度为31天;
  3. 推理接入点总数:筛选条件下,所有有调用量的接入点的数量;
  4. 接入模型总数:筛选条件下,所有有调用量的模型的数量;
  5. 调用总量:筛选条件下,发送请求的总数;
  6. 失败总量:筛选条件下,发送请求失败的总数;
  7. 平均调用时长:筛选条件下,所有调用耗时的平均值;
  8. 平均首token时延:筛选条件下,所有调用的首包时长的平均值。

监控详情

用户在「调用监控」页选中某个推理点后,将展示该推理点的监控详情:

页面截图

参数说明

卡片各指标说明:

  1. 聚合:页面默认展示该推理点按分钟聚合的近7天调用数据,用户可选择按天/小时/分钟聚合;
  2. 周期:支持自定义查询周期,调用监控最长保留一年,最大查询时间跨度为31天;
  3. API Key:默认选择全部,用户可选择查询周期内调用过的API Key;
  4. 调用总量:筛选条件下,发送请求的总数;
  5. 失败总量:筛选条件下,发送请求失败的总数;
  6. 消耗token总数:筛选条件下,所有调用输入/输出消耗token的总数;
  7. 输入token总数:筛选条件下,所有调用输入消耗token的总数;
  8. 输出token总数:筛选条件下,所有调用输出消耗token的总数;
  9. Prompt cache token总数:筛选条件下,所有调用Prompt cache token的总数。

曲线图各指标说明:

  1. 调用量(次):按聚合维度展示统计周期内的各项指标数据:调用总量、调用成功次数、调用失败次数、Prompt cache次数;
  2. 消耗token数(tokens):按聚合维度展示筛选条件下的各项指标数据,:token总数、输入token数、输出token数、Prompt cache token数;
  3. 模型调用耗时(秒):按聚合维度展示筛选条件下调用耗时的平均值;
  4. 首次响应耗时(秒):按聚合维度展示筛选条件下调用首包时长的平均值;
  5. Token输出速度(个/秒)按聚合维度展示筛选条件下调用平均输出token的速度;
  6. 调用失败率(百分比):按聚合维度展示筛选条件下调用失败率(调用失败/调用总量)。

批量推理

批量推理点

该板块对用户当前资源的使用进行实时监控,用户可查看以下信息:

页面截图

参数说明

  1. 项目:默认为当前项目,用户可切换所属项目,可切换为该账号下所有空间项目且支持多选;
  2. 周期:支持自定义查询周期,调用监控最长保留一年,最大查询时间跨度为31天;
  3. 推理接入点总数:筛选条件下,所有接入点的数量;
  4. 接入模型总数:筛选条件下,所有接入模型的数量;
  5. 调用总量:筛选条件下,发送请求的总数;
  6. 失败总量:筛选条件下,发送请求失败的总数;
  7. 平均调用时长:筛选条件下,所有调用耗时的平均值;
  8. 消耗token总数:筛选条件下,所有调用输入/输出消耗token的总数;
  9. 输入token总数:筛选条件下,所有调用输入消耗token的总数;
  10. 输出token总数:筛选条件下,所有调用输出消耗token的总数。

监控详情

用户在「调用监控」页选中某个推理点后,将展示该批量推理点的监控详情:

页面截图

参数说明

卡片各指标说明:

  1. 聚合:页面默认展示该推理点按分钟聚合的近7天调用数据,用户可选择按天/小时/分钟聚合;
  2. 周期:支持自定义查询周期,调用监控最长保留一年,最大查询时间跨度为31天;
  3. API Key:默认选择全部,用户可选择查询周期内调用过的API Key;
  4. 调用总量:筛选条件下,发送请求的总数;
  5. 失败总量:筛选条件下,发送请求失败的总数;
  6. 消耗token总数:筛选条件下,所有调用输入/输出消耗token的总数;
  7. 输入token总数:筛选条件下,所有调用输入消耗token的总数;
  8. 输出token总数:筛选条件下,所有调用输出消耗token的总数。

曲线图各指标说明:

  1. 调用量(次):按聚合维度展示统计周期内的各项指标数据:调用总量、调用成功、调用失败;
  2. 消耗token数(tokens):按聚合维度展示筛选条件下的各项指标数据:token总数、输入token数、输出token数;
  3. 调用失败率(百分比):按聚合维度展示筛选条件下调用失败率(调用失败/调用总量)。

批量推理任务

该板块对用户当前资源的使用进行实时监控,用户可查看以下信息:

页面截图

参数说明

  1. 项目:默认为当前项目,用户可切换所属项目,可切换为该账号下所有空间项目且支持多选;
  2. 周期:支持自定义查询周期,调用监控最长保留一年,最大查询时间跨度为31天;
  3. 接入模型总数:筛选条件下,所有接入模型的数量;
  4. 调用总量:筛选条件下,发送请求的总数;
  5. 失败总量:筛选条件下,发送请求失败的总数;
  6. 消耗token总数:筛选条件下,所有调用输入/输出消耗token的总数;
  7. 输入token总数:筛选条件下,所有调用输入消耗token的总数;
  8. 输出token总数:筛选条件下,所有调用输出消耗token的总数。

监控详情

用户在「调用监控」页选中某个批量推理任务后,将展示该批量推理任务的监控详情:

页面截图

参数说明

卡片各指标说明:

  1. 调用总量:筛选条件下,发送请求的总数;
  2. 失败总量:筛选条件下,发送请求失败的总数;
  3. 消耗token总数:筛选条件下,所有调用输入/输出消耗token的总数;
  4. 输入token总数:筛选条件下,所有调用输入消耗token的总数;
  5. 输出token总数:筛选条件下,所有调用输出消耗token的总数。

曲线图各指标说明:

  1. 调用量(次):调用总量、调用成功、调用失败;
  2. 消耗token数(tokens):按聚合维度展示筛选条件下的各项指标数据:token总数、输入token数、输出token数;
  3. 调用失败率(百分比):按聚合维度展示筛选条件下调用失败率(调用失败/调用总量)。


上一篇:批量推理下一篇:用量统计
该篇文档内容是否对您有帮助?
有帮助没帮助