logologo
售前咨询
快手万擎(Vanchin)
开始使用
产品介绍
模型介绍
控制台介绍
模型定制
模型托管
模型评测
数据管理
产品计费
API说明
常见问题
相关协议
文档中心
控制台介绍数据管理数据分析

数据分析


数据分析通过对数据集进行全面“体检”,深入分析数据的重复性、分布特征及异常情况,为用户提供科学、量化的数据质量评估,精准定位需要清洗、增强或优化的数据,为模型精调及评测提供优质的数据输入,最终提升模型训练效果与迭代效率。


适用场景

  • 原始数据预处理:如何将原始数据加工成可直接用于训练的固定格式数据?

对原始数据进行系统化质量评估,精准定位精准定位乱码、表情符号、不可见字符、空值样本、重复样本等问题,通过数据清洗、增强等手段确保输入模型的数据集高质量、分布合理,为高效训练奠定基础。

  • 数据清洗准备:如何为数据集清洗找到精准的优化方向与加工依据?

通过数据分析深度诊断数据集样本重复、异常值等问题,明确数据清洗的核心对象与加工重点,让数据清洗工作更具针对性,高效解决数据集样本低质的难题。

  • 数据增强准备:如何让数据集增强操作更贴合需求、避免盲目加工?

评估数据集的分布质量情况,定位极值、空值等分布短板,确定数据增强的维度与方向,让增强操作更贴合实际样本需求,实现数据集由少到多、分布均衡的优化目标,同时让样本能够覆盖更多同类场景、呈现更丰富的同义表达。


分析任务操作说明

新建分析任务

在导航栏数据管理板块中选择「数据分析」,点击「+ 新建分析任务」进入新建信息填写页面,下文以新建自定义数据集为例:

1.入口:在导航栏数据管理板块中选择「数据集」,在数据集列表中可选择已导入的数据集进行分析;

2.选择进行分析的数据集类型及数据集;选择自定义数据集,还需选择分析的数列;

3.创建成功后平台将为您进行数据分析,数据量大小将会影响分析所需时间,请您耐心等待。

【⚠️ 若选择的数据集已进行过数据分析,重新分析将会覆盖原有的分析结果】

查看分析任务

在数据分析列表中点击「详情」即可查看该分析任务的详细情况,平台汇总当前数据集的核心体检指标,帮助用户快速判断整体质量,如使用标准数据集格式,system列不计入结果统计指标计算。

【⚠️ 仅分析完成状态可查看分析任务详情内容】

  • 异常样本行/异常单元格数:命中以下基础问题的样本数量及占比,包括行中单元格存在空值、重复内容、特殊字符在单元格中占比大于20%。
  • 分布质量:衡量样本整体“长度分布”是否健康,是否过度集中在极短/极长。
  • 存在空值样本占比:存在1个及以上空值单元格的行数占比。
  • 特殊字符占比:包含特殊字符的数量占比(如表情符号、不可见字符和◆●ツシ℃√§″′´¿等)。
  • 重复单元格占比:全部样本中出现“内容完全相同”的重复单元格占比。

数据处理建议

用户可查看各列指标存在的问题及平台提供的数据处理建议。

数据集样本筛选

用户可根据需要对数据集样本进行筛选,当前支持配置整表和各列指标的筛选条件,包括:

  • 整表筛选指标:在整表范围内进行异常样本行、空值样本、特殊字符样本、重复样本、样本异常数的筛选;
  • 数列筛选指标:基于各列指标进行筛选,可跨列组合,筛选条件包括特殊字符数、特殊字符占比、重复单元格、字符数、文本内容。

查看数据集内容

用户可高亮数据集中存在问题的行数,hover异常提示即可查看该行数据存在的具体问题:

用户可选择部分数据进行保存,平台支持保存为新数据集和保存到当前数据集两种方式。

【⚠️ 当用户选择保存到当前数据集时,若选择已有版本,将覆盖该版本的全部数据内容,原内容不可恢复】

用户可选择是否开启数据继承,开启后新增版本数据将包含新增数据上一个版本的数据。

管理分析列表

当项目下存在已分析的数据集时,用户可在数据分析页面查看该项目下的所有分析任务信息,包括分析所使用的数据集、分析任务状态、样本总数、异常样本数、重复样本数及任务开始结束时间。

  • 异常样本:命中以下基础问题的样本数量及占比,包括行中单元格存在空值、重复内容、特殊字符在单元格中占比大于20%。
  • 重复样本:内容完全相同的重复单元格数量及占比,重复内容可能导致模型过度记忆、降低泛化能力。


上一篇:数据集下一篇:数据工作流
该篇文档内容是否对您有帮助?
有帮助没帮助