模型评测是衡量大模型在特定任务或业务场景中表现效果的关键环节,旨在客观评估模型的准确性、可靠性及用户体验。通过评测,您可以验证微调是否达到预期目标、发现潜在问题,并为后续优化提供依据。
目前,本平台仅支持人工评测方式,即由用户基于预设标准,对模型输出进行主观判断与打分。虽然人工评测依赖人力投入,但它在评估语言自然度、逻辑合理性、领域专业性等复杂维度上具有不可替代的优势,尤其适用于缺乏标准答案或高度依赖人类偏好的生成类任务(如对话、创作、解释等)。
新建评测任务
在导航栏模型定制板块中,选择「模型评测」,点击「新建评测任务」进入新建信息填写页面。

- 填写名称、描述等基本信息;
- 选择模型,最多支持选择5个模型,用户可选择模型广场预置模型或用户已部署成功的模型;
- 选择数据集;
- 选择评价模式:
- GSB:评估时可选择Good、Same、Bad三个选项。Good表示:基准模型比对比模型好;Same表示:基准模型和对比模型一样好或一样差;Bad表示:基准模型比对比模型差。
- 5分制:评估者根据预设的评分标准,在1到5的整数范围内对模型输出打分。
- 10分制:评估者在1到10的整数范围内对模型输出打分。
查看评测任务
当项目下存在评测任务时,用户可在模型评测页面查看该项目下的所有评测任务信息,点击某个任务名称将进入该任务详情,可查看任务的名称、状态、评测方式、推理方式、模型、数据集等。

模型评测任务状态
- 排队中:任务处于排队状态支持终止,终止后无法继续评测。
- 执行中:任务处于执行状态支持终止,终止后无法继续评测。
- 已终止:任务处于终止状态支持复制、删除,删除后不可恢复任务。
- 待标注:任务处于待标注状态,表示模型已输出结果,但结果还未标记,该状态下支持去标注、复制评测任务及删除。
- 标注中:任务处于标注中状态,表示该任务已完成一条结果的标注,但至少还有一条未标注。
- 已完成:任务处于完成状态支持查看评测结果、复制评测任务及删除。
- 已失败:任务处于失败状态支持删除,删除后不可恢复任务。
评测任务详情
当前支持线上线下两种标柱方式:
- 线上标柱:点击「在线标柱」可进入标柱页面,对评测任务从头开始标柱;也支持在列表处选择某一条回答进行在线标柱;
- 线下标柱:您可下载标柱数据表格后在线下对回答进行标柱,标柱完成后上传标柱结果。

模型评测结果
【⚠️若任务处于排队中、执行中、已终止状态,将无法查看评测结果】
您可查看评测分数的分布情况,包括各个分值个数、占比,表格中将展示该模型的平均打分(5分制、10分制将展示平均得分;GSB打分将展示胜率次数:good计算胜率+1,bad胜率-1,same不计)。
