模型效果评测是一种用于衡量模型表现的技术。用户可选择人工评测或自动评测来判断模型在不同任务类型下的性能。
在左侧导航栏模型定制板块,选择「模型评测」,点击「新建评测任务」进入新建信息填写页面。
页面截图 | 配置项 | 说明 |
任务名称 | 必填,用户自定义的任务名称。 | |
任务描述 | 非必填,用户自定义的任务描述。 | |
评测方式 | 必填,单选:
| |
选择模型 | 必填,多选,最多支持选择5个模型,用户可选择模型广场预置模型或用户已部署成功的模型。 | |
数据集 | 必填,单选,用户可选择项目数据集或预置数据集。 | |
评价模式 | 必填,单选,支持GSB(仅选择2种模型时)、5分制、10分制。 |
在左侧导航栏模型定制板块,选择「模型评测」,若当前项目下有模型评测任务,将展示评测任务列表,用户可查看各个任务的名称、状态、评测方式、推理方式、模型、数据集等。
页面截图 | 展示项 | 说明 |
任务名称 | 点击进入任务详情页面。 | |
任务状态 | 支持筛选,可多选。 | |
评测方式 | 展示任务评测方式,支持筛选,可多选。 | |
模型 | 展示所有该评测任务的模型名称。 | |
数据集 | 点击进入数据集详情页面。 | |
评价模式 | 展示评价模式,支持筛选,可多选。 | |
任务描述 | 展示任务描述。 | |
创建人 | 展示任务创建人。 | |
创建时间 | 按创建时间降序排序,支持排序。 | |
操作 | 不同状态下,用户可进行的操作不同,包括终止、删除、复制、去标注及查看结果。 |
任务状态:
点击任务列表页任务名称即可进入该任务详情,用户可查看任务的基本信息及评测配置。
点击任务列表页任务名称即可进入该任务详情,上方可切换至评测结果页(排队中、执行中、已终止状态不支持查看评测结果)。
页面截图 | 展示项 | 说明 |
标注进度 | 可查看总标注进度和每个模型的标注进度。 | |
标注分布 | 用户可查看评测分数的分布情况:
| |
分析表格 |
|
点击任务列表页任务名称即可进入该任务详情,上方可切换至评测详情页(排队中、执行中、已终止状态不支持查看评测结果),用户可查看模型评测任务中模型回答及打分等情况。
页面截图 | 配置项 | 说明 |
线下标注 | 支持下载标注结果、上传标注结果。 | |
查看结果 | 点击进入标注页面,仅支持查看。 | |
在线标注 | 点击进入标注,可进行编辑。 |