模型评测是衡量大模型在特定任务或业务场景中表现效果的关键环节,旨在客观评估模型的准确性、可靠性及用户体验。通过评测,您可以验证微调是否达到预期目标、发现潜在问题,并为后续优化提供依据。
目前,本平台仅支持人工评测、自动评测两种评测方式:
人工评测:即由用户基于预设标准,对模型输出进行主观判断与打分。虽然人工评测依赖人力投入,但它在评估语言自然度、逻辑合理性、领域专业性等复杂维度上具有不可替代的优势,尤其适用于缺乏标准答案或高度依赖人类偏好的生成类任务(如对话、创作、解释等)。
自动评测:系统根据预设规则或调用“裁判”模型,自动对模型输出进行打分或评判,最终自动生成评测报告。
为什么要进行模型评测?
模型评测是模型开发与应用中的关键环节。它能帮助您验证模型微调效果,确保其在特定业务领域的能力提升;同时识别潜在风险,如通用能力的退化或生成内容的安全性问题,为模型选型、优化与部署提供科学依据;最重要的能够帮助用户快速对比不同模型的表现,选择最适合业务需求的模型。
人工评测
新建评测任务
在导航栏模型定制板块中,选择「模型评测」,点击「新建评测任务」进入新建信息填写页面。

- 填写名称、描述等基本信息;
- 选择模型,最多支持选择5个模型,用户可选择模型广场预置模型或用户已部署成功的模型;
- 选择数据集;
- 选择评价模式:
- GSB:评估时可选择Good、Same、Bad三个选项。Good表示:基准模型比对比模型好;Same表示:基准模型和对比模型一样好或一样差;Bad表示:基准模型比对比模型差。
- 5分制:评估者根据预设的评分标准,在1到5的整数范围内对模型输出打分。
- 10分制:评估者在1到10的整数范围内对模型输出打分。
查看评测任务
当项目下存在评测任务时,用户可在模型评测页面查看该项目下的所有评测任务信息,点击某个任务名称将进入该任务详情,可查看任务的名称、状态、评测方式、推理方式、模型、数据集等。

模型评测任务状态
- 排队中:任务处于排队状态支持终止,终止后无法继续评测。
- 执行中:任务处于执行状态支持终止,终止后无法继续评测。
- 已终止:任务处于终止状态支持复制、删除,删除后不可恢复任务。
- 待标注:任务处于待标注状态,表示模型已输出结果,但结果还未标记,该状态下支持去标注、复制评测任务及删除。
- 标注中:任务处于标注中状态,表示该任务已完成一条结果的标注,但至少还有一条未标注。
- 已完成:任务处于完成状态支持查看评测结果、复制评测任务及删除。
- 已失败:任务处于失败状态支持删除,删除后不可恢复任务。
评测任务详情
当前支持线上线下两种标柱方式:
- 线上标柱:点击「在线标柱」可进入标柱页面,对评测任务从头开始标柱;也支持在列表处选择某一条回答进行在线标柱;
- 线下标柱:您可下载标柱数据表格后在线下对回答进行标柱,标柱完成后上传标柱结果。

模型评测结果
【⚠️若任务处于排队中、执行中、已终止状态,将无法查看评测结果】
您可查看评测分数的分布情况,包括各个分值个数、占比,表格中将展示该模型的平均打分(5分制、10分制将展示平均得分;GSB打分将展示胜率次数:good计算胜率+1,bad胜率-1,same不计)。

自动评测
新建评测任务
在导航栏模型定制板块中,选择「模型评测」,点击「新建评测任务」进入新建信息填写页面。

- 填写名称、描述等基本信息
- 选择模型:最多支持选择5个模型,用户可选择模型广场预置模型或用户已部署成功的模型。
- 数据集:用户可选择项目数据集或预置数据集。
- 评价模式:默认选项为预置裁判员规则+默认规则,可选默认规则、自定义裁判规则。
- 默认规则:
- 准确率:表示在所有被模型预测为正确预测(标注与预测完全匹配)的样本中与总样本数的比例。
- F1:综合评估分类模型的精确率和召回率。
- ROUGE-1:衡量生成文本与参考文本之间单个词语的重叠程度。
- ROUGE-2:衡量生成文本与参考文本之间连续两个词语(二元组)的重叠程度。
- ROUGE-L:基于最长公共子序列,衡量生成文本与参考文本的句子级结构相似性。
- BLEU-4:通过衡量生成文本与参考文本之间最多连续4个词的匹配精度,来评估机器翻译的质量。
- 预置裁判规则:事实性错误、情感倾向性、语义连贯性,按照最终选中的指标进行打分。
- 事实性:判断模型回答的内容是否与客观事实或给定知识存在冲突。
- 情感倾向性:分析模型回答所表达的情感态度是积极、消极还是中性。
- 语义连贯性:评估模型回答的句子之间是否逻辑流畅、前后连贯,易于理解。
- 裁判模型:可选预置模型或用户微调后部署的模型。
- 裁判提示词:若用户选择自定义裁判规则,则必须填写裁判提示词,支持用户输入或选择模版自动填入后自主编辑。
查看评测任务
当项目下存在评测任务时,用户可在模型评测页面查看该项目下的所有评测任务信息,点击某个任务名称将进入该任务详情,可查看任务的名称、状态、评测方式、推理方式、模型、数据集等。
查看评测详情
您可在评测任务详情页面查看模型各个回答的评测情况:

查看评测结果
【⚠️若任务处于排队中、执行中、已终止状态,将无法查看评测结果】
您可查看评测各指标的分布情况,包括各个分值个数、占比:
