数据挖掘导论前言
2024-04-30
由于我本人的工作就是关于大数据图算法挖掘的,之前连载的栏目 DGFD 论文笔记也是关于这方面的,所以打算新开一个栏目来对数据挖掘有个更加系统的记录。
本栏目主要参考书目为:数据挖掘导论(原书第 2 版),但是本栏目并非该书的简单翻译,而是会结合本人的理解以及工作经验进行讲解和记录。
分类
在此讨论分类的意义在于:当面临一个数据分析或数据挖掘任务时,我们能根据其目标快速判断它属于哪一种数据挖掘任务类型,从而能对可选择的分析方法有想法,以及对该任务最终的效果有概念。对任务类型的正确判断可以为后续的分析工作提供很好的支持,保证整个数据挖掘任务的进行在大方向上没有错误。
聚类分析。
旨在发现紧密相关的观测值组群,使得属于不同簇的观测值相比,数据同一簇的观测值相互之间尽可能相似。
关联分析。
用于发现描述数据中强关联特征的模式。
预测建模。
指为目标变量建立模型,并将其作为解释变量的函数。其中又可以分为两类:
- 分类:预测离散的目标变量。
- 回归:预测连续的目标变量。
异常检测。
识别其特征显著不同于其他数据的观测值。