测量误差(measurement error)
指测量过程中产生的问题。常见的是:在某种程度上,记录的值和实际的值不同。对于连续属性,测量值与实际值的差被称为: 误差(error)。
约 1068 字大约 4 分钟
2024-06-11
数据挖掘算法通常用于为其他目的收集的数据,或者在收集时未明确其目的。因此,数据挖掘常常无法控制数据的质量,所以我们着眼于两个方面:
第一步的检测和纠正通常被称为 数据清理(data cleaning) 。
下面我们关注数据测量和收集方面的数据质量问题。我们先定义测量误差和数据收集错误,然后考虑涉及测量误差的各种问题:噪声、伪像、偏置、精度和准确率。最后讨论同时涉及测量和数据收集的数据质量问题:离群点、遗漏和不一致的值、重复数据。
测量误差(measurement error)
指测量过程中产生的问题。常见的是:在某种程度上,记录的值和实际的值不同。对于连续属性,测量值与实际值的差被称为: 误差(error)。
数据收集错误(data collection error)
指遗漏数据对象或属性值,或者不当地包含了其他数据对象等错误。
噪声
噪声是测量误差的随机部分,通常涉及值被扭曲或加入了谬误对象。
尽管可以使用信号或图像处理技术降低噪声以发现淹没在噪声中的模式,但是 完全消除噪声通常是困难的,所以许多数据挖掘工作都关注设计 鲁棒算法,即在噪声干扰下也可以产生可接受的结果。
伪像(artifact)
数据的确定性失真被称为伪像。例如一组照片在同一地方出现条纹。
对于下面的定义,我们假定对相同的基本量进行重复测量。
精度(percision)
同一个量的重复测量值之间的接近程度。
偏置(bias)
测量值与被测量之间的系统的变化。
精度通常使用标准差来表示,偏置使用值集合的均值与测出的已知值之间的差来度量。例如使用一个实验室标准的 1 g 砝码来评估实验室的新天平的精度和偏置。称重 5 次,得到:{1.015, 0.990, 1.013, 1.001, 0.986}。这个值集合的均值为 1.001,所以偏置为 0.001。用标准差度量精度为 0.013。
准确率(accuracy)
被测量的测量值与实际值之间的接近值度。
离群点(outlier)是在某种意义上具有不同于数据集中其他大部分数据对象的特征的数据对象,也称为 异常。
噪声和离群点的区别
离群点可以是合法的数据对象或值。
一个对象遗漏一个或多个属性值的情况并不少见。以下提供三种策略,适合用于不同的情况。
优点:
缺点:
有时遗漏值可以被估计。比如平滑,或者插值的方法,多用于数据图像处理或者时序的数据。
许多数据挖掘都可以修改以忽略遗漏值。
为了检测并删除数据中的重复,实际是在处理两个问题:
这个过程的专业术语是 去重(deduplication)。