数据挖掘第一、二章——绪论、数据
一、绪论
1.什么是数据挖掘
从大量数据中非平凡地提取隐含的、未知的、有潜在价值的有用信息 自动化、半自动化地探索、分析大量数据,以求发现有意义的模式
2.数据挖掘任务
预测任务(分类、回归...)描述任务(关联、聚类..)
3.预测建模:涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务
分类:用于预测离散的目标变量回归:用于预测连续的目标变量
4.关联分析:用来发现描述数据中心强关联特征的模式。
5.聚类分析:发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。
6.异常检测:识别其特征显著不同于其他数据的观测值。(异常点or离群点)
7.流程
数据清洗 ==> 数据集成 ==> 数据挖掘 ==> 模式评估
二、数据
1.基本概念
数据:数据对象和属性的集合。属性:对象的某种特质,一组属性可描述一个对象。属性值:属性的数值或符号描述。数据集:数据对象的集合。
2.属性类型
标称norminal:(1)序数ordinal:(1)(2)区间interval:(1
共有 0 条评论