数据质量

约 1068 字大约 4 分钟

2024-06-11

数据挖掘算法通常用于为其他目的收集的数据，或者在收集时未明确其目的。因此，数据挖掘常常无法控制数据的质量，所以我们着眼于两个方面：

数据质量问题的检测和纠正
使用可以容忍低质量数据的算法

第一步的检测和纠正通常被称为 数据清理 ( data cleaning ) 。

测量和数据收集问题

下面我们关注数据测量和收集方面的数据质量问题。我们先定义测量误差和数据收集错误，然后考虑涉及测量误差的各种问题：噪声、伪像、偏置、精度和准确率。最后讨论同时涉及测量和数据收集的数据质量问题：离群点、遗漏和不一致的值、重复数据。

测量误差和数据收集错误

测量误差 ( measurement error )

指测量过程中产生的问题。常见的是：在某种程度上，记录的值和实际的值不同。对于连续属性，测量值与实际值的差被称为: 误差 ( error ) 。

数据收集错误 ( data collection error )

指遗漏数据对象或属性值，或者不当地包含了其他数据对象等错误。

噪声和伪像

噪声

噪声是测量误差的随机部分，通常涉及值被扭曲或加入了谬误对象。

尽管可以使用信号或图像处理技术降低噪声以发现淹没在噪声中的模式，但是完全消除噪声通常是困难的，所以许多数据挖掘工作都关注设计鲁棒算法，即在噪声干扰下也可以产生可接受的结果。

伪像 ( artifact )

数据的确定性失真被称为伪像。例如一组照片在同一地方出现条纹。

精度、偏执和准确率

对于下面的定义，我们假定对相同的基本量进行重复测量。

精度 ( percision )

同一个量的重复测量值之间的接近程度。

偏置 ( bias )

测量值与被测量之间的系统的变化。

精度通常使用标准差来表示，偏置使用值集合的均值与测出的已知值之间的差来度量。例如使用一个实验室标准的 1 g 砝码来评估实验室的新天平的精度和偏置。称重 5 次，得到：{1.015,0.990,1.013,1.001,0.986}。这个值集合的均值为 1.001，所以偏置为 0.001。用标准差度量精度为 0.013。

准确率 ( accuracy )

被测量的测量值与实际值之间的接近值度。