

数据分析通过对数据集进行全面“体检”,深入分析数据的重复性、分布特征及异常情况,为用户提供科学、量化的数据质量评估,精准定位需要清洗、增强或优化的数据,为模型精调及评测提供优质的数据输入,最终提升模型训练效果与迭代效率。
对原始数据进行系统化质量评估,精准定位精准定位乱码、表情符号、不可见字符、空值样本、重复样本等问题,通过数据清洗、增强等手段确保输入模型的数据集高质量、分布合理,为高效训练奠定基础。
通过数据分析深度诊断数据集样本重复、异常值等问题,明确数据清洗的核心对象与加工重点,让数据清洗工作更具针对性,高效解决数据集样本低质的难题。
评估数据集的分布质量情况,定位极值、空值等分布短板,确定数据增强的维度与方向,让增强操作更贴合实际样本需求,实现数据集由少到多、分布均衡的优化目标,同时让样本能够覆盖更多同类场景、呈现更丰富的同义表达。
在导航栏数据管理板块中选择「数据分析」,点击「+ 新建分析任务」进入新建信息填写页面,下文以新建自定义数据集为例:
1.入口:在导航栏数据管理板块中选择「数据集」,在数据集列表中可选择已导入的数据集进行分析;
2.选择进行分析的数据集类型及数据集;选择自定义数据集,还需选择分析的数列;
3.创建成功后平台将为您进行数据分析,数据量大小将会影响分析所需时间,请您耐心等待。
【⚠️ 若选择的数据集已进行过数据分析,重新分析将会覆盖原有的分析结果】
在数据分析列表中点击「详情」即可查看该分析任务的详细情况,平台汇总当前数据集的核心体检指标,帮助用户快速判断整体质量,如使用标准数据集格式,system列不计入结果统计指标计算。
【⚠️ 仅分析完成状态可查看分析任务详情内容】
用户可查看各列指标存在的问题及平台提供的数据处理建议。
用户可根据需要对数据集样本进行筛选,当前支持配置整表和各列指标的筛选条件,包括:
用户可高亮数据集中存在问题的行数,hover异常提示即可查看该行数据存在的具体问题:
用户可选择部分数据进行保存,平台支持保存为新数据集和保存到当前数据集两种方式。
【⚠️ 当用户选择保存到当前数据集时,若选择已有版本,将覆盖该版本的全部数据内容,原内容不可恢复】
用户可选择是否开启数据继承,开启后新增版本数据将包含新增数据上一个版本的数据。
当项目下存在已分析的数据集时,用户可在数据分析页面查看该项目下的所有分析任务信息,包括分析所使用的数据集、分析任务状态、样本总数、异常样本数、重复样本数及任务开始结束时间。