属性(attribute)
对象的性质或特征, 它因对象而异, 或随时间变化.
1198字约4分钟
大数据
2024-06-06
本文中我们将讨论一些与数据有关系的问题, 它们对于数据挖掘的成败至关重要.
属性(attribute)
对象的性质或特征, 它因对象而异, 或随时间变化.
测量标度(measurement scale)
将数值或符号值与对象的属性相关联的规则(函数).
很显然属性有许多方法可以进行分类, 但是此处我们使用一种简单的方法: 通过确定对应属性基本性质的数值的性质来分类. 数值的如下性质常常用来描述属性:
给定这些性质后, 我们可以定义四种属性类型:
我们也可以使用变换来定义属性的类型.
为了方便起见, 我们将数据集的类型分成三组: 记录数据、基于图形的数据和有序数据.
在讨论数据集的细节之前, 我们先讨论数据集的三个特性, 则会适用于许多数据集, 对后续的数据挖掘技术有着重要影响.
数据集的维度就是数据集中的对象具有的属性数量. 分析高维数据时有时会陷入维度灾难. 所以在数据预处理时一个重要的动机就是减少维度, 称为维度归约.
数据集的分布是构成数据对象的属性的各种值或值的集合出现的频率.
虽然描述分布的统计方法可以产生强大的分析技术, 但是许多数据集的分布并没有被标准的统计分布很好地解释. 所以许多数据挖掘算法并没有为其分析的数据假定某个特定的统计分布. 然而, 分布的一般特性通常强烈地影响着算法的表现.
分辨率通常会影响数据的性质. 如果分辨率太高, 模式可能看不出来; 如果分辨率太低, 模式可能不出现.
许多数据挖掘任务都假定数据集是记录的汇集, 每个记录包含固定的数据字段集.
事务数据(transaction data)是哪一种特殊类型的记录数据, 其中每个记录涉及一系列的项.
如果一个数据集族中的所有数据对象都具有相同的数值属性集, 则数据对象可以看作多维空间中的点(向量), 其中每个维代表对象的一个不同属性. 数据矩阵式记录数据的变体, 但是由于它由数值属性组成, 可以使用标准的矩阵操作对数据进行变换和处理.
这是数据矩阵的一种特殊情况, 其中属性的类型相同并且式非对称的, 即只有非零值才重要. 事务数据式仅含有0和1元素的稀疏矩阵的例子.
对象之间的联系如果携带重要信息, 则常用图表示.
如果对象具有结构, 即对象包含具有联系的子对象, 则通常用图表示.
时序事务数据(sequential transaction data)可以看作是事务数据的扩充, 每个事务都包含一个与之关联的时间.
时间序列数据(time series data)是一种特殊的有序数据类型, 其中每条记录都是一个时间序列, 即一段时间以来的测量序列.
序列数据(sequence data)是一个数据集合, 它是各个实体的序列, 如词或者字母的序列. 除了没有时间戳外, 它与时序数据非常像.
有些对象除了其他类型的属性外, 还有空间属性. 空间数据的一个重要方面是空间自相关性(spatial autocorrelation), 即物理上靠近对象趋于其他方面也相像.