logologo
售前咨询
快手万擎
开始使用
模型介绍
产品计费
API说明
控制台介绍
模型定制
场景示例
相关协议
文档中心
控制台介绍模型定制模型评测

模型评测


模型效果评测是一种用于衡量模型表现的技术。用户可选择人工评测或自动评测来判断模型在不同任务类型下的性能。

人工评测

在左侧导航栏模型定制板块,选择「模型评测」,点击「新建评测任务」进入新建信息填写页面。

创建评测任务

页面截图

配置项

说明

任务名称

必填,用户自定义的任务名称。

任务描述

非必填,用户自定义的任务描述。

评测方式

必填,单选:

  • 人工评测:通过人工标注模型推理结果,手动生成评测报告;
  • 自动评测:通过大模型自动完成评分,自动生成评测报告。【暂未支持】

选择模型

必填,多选,最多支持选择5个模型,用户可选择模型广场预置模型或用户已部署成功的模型。

数据集

必填,单选,用户可选择项目数据集或预置数据集。

评价模式

必填,单选,支持GSB(仅选择2种模型时)、5分制、10分制。

任务列表

在左侧导航栏模型定制板块,选择「模型评测」,若当前项目下有模型评测任务,将展示评测任务列表,用户可查看各个任务的名称、状态、评测方式、推理方式、模型、数据集等。

页面截图

展示项

说明

任务名称

点击进入任务详情页面。

任务状态

支持筛选,可多选。

评测方式

展示任务评测方式,支持筛选,可多选。

模型

展示所有该评测任务的模型名称。

数据集

点击进入数据集详情页面。

评价模式

展示评价模式,支持筛选,可多选。

任务描述

展示任务描述。

创建人

展示任务创建人。

创建时间

按创建时间降序排序,支持排序。

操作

不同状态下,用户可进行的操作不同,包括终止、删除、复制、去标注及查看结果。

任务状态:

  • 排队中:任务处于排队状态支持终止,终止后无法继续评测。
  • 执行中:任务处于执行状态支持终止,终止后无法继续评测。
  • 已终止:任务处于终止状态支持复制、删除,删除后不可恢复任务。
  • 待标注:任务处于待标注状态,表示模型已输出结果,但结果还未标记,该状态下支持去标注、复制评测任务及删除。
  • 标注中:任务处于标注中状态,表示该任务已完成一条结果的标注,但至少还有一条未标注。
  • 已完成:任务处于完成状态支持查看评测结果、复制评测任务及删除。
  • 已失败:任务处于失败状态支持删除,删除后不可恢复任务。

任务详情

点击任务列表页任务名称即可进入该任务详情,用户可查看任务的基本信息及评测配置。

评测结果

点击任务列表页任务名称即可进入该任务详情,上方可切换至评测结果页(排队中、执行中、已终止状态不支持查看评测结果)。

页面截图

展示项

说明

标注进度

可查看总标注进度和每个模型的标注进度。

标注分布

用户可查看评测分数的分布情况:

  • 柱状图:可查看各个分值的个数。
  • 饼状图:可查看各个分值的占比。

分析表格

  • 分析维度展示该模型的平均打分:
    • 分值打分将展示平均得分;
    • GSB打分将展示胜率次数(good计算胜率+1,bad胜率-1,same不计)。
  • 主观评价:点击编辑按钮即可填写评价。

评测详情

点击任务列表页任务名称即可进入该任务详情,上方可切换至评测详情页(排队中、执行中、已终止状态不支持查看评测结果),用户可查看模型评测任务中模型回答及打分等情况。

页面截图

配置项

说明

线下标注

支持下载标注结果、上传标注结果。

查看结果

点击进入标注页面,仅支持查看。

在线标注

点击进入标注,可进行编辑。

上一篇:模型仓库下一篇:数据集
该篇文档内容是否对您有帮助?
有帮助没帮助