DataMining
本文最后更新于 2024年9月23日 上午
数据挖掘
前言
学科地位:
主讲教师 | 学分配额 | 学科类别 |
---|---|---|
郑智超 | 3+1 | 专业课 |
成绩组成:
理论课 | 实验课 | ||
---|---|---|---|
考勤 | 5% | 考勤 | 10% |
作业 (书面) | 20% | 作业 (编程) | 30% |
期末 (闭卷) | 75% | 大作业 | 60% |
教材情况:
课程名称 | 选用教材 | 版次 | 作者 | 出版社 | ISBN 号 |
---|---|---|---|---|---|
数据挖掘 | 《数据挖掘:原理与应用》 | 1 | 丁兆云,周鋆,杜振国 | 机械工业出版社 | 978-7-111-69630-8 |
为什么要学这门课?
数据量在进入信息化时代后指数级增长, 显然这些数据一定具有某种价值. 之前看到过这样的说法 “你能想到和做到的, 前人都已经想到和做到了”, 虽然这样的说法不具有绝对性, 但是个人认为对于大多数人都是适用的. 也就是说, 人类的行为甚至是万物的变迁都是符合统计学规律的, 而这些规律都藏在浩瀚的数据之中. 因此个人认为这门课对于研究统计学规律会有一些入门的帮助.
会收获什么?
其实, 预测模型已经有相当完善的体系了, 各种框架, 模型, 网络, 都已经经过了大量的使用与验证并且使用门槛极低. 因此这门课可能带来的收获就是「数据预处理」的本事. 如果不谈数据收集的过程, 只谈数据处理的方法和策略, 那么大概会有这样的几个过程:
- 数据清洗: 缺失值处理, 重复值处理, 异常值处理
- 数据集成: 将零散的数据集成为一个完整的数据集
- 数据转换: 非数值型数据编码, 标准化/归一化, 离散化/连续化
- 特征工程: 提取特征, 筛选特征
- 数据采样: 过采样/欠采样
上述每一个方法与过程的背后都有很大的学问, 且学且珍惜.
当然, 如何选择模型进行参数炼丹, 也许也会收获一些策略上的经验. 等在后续学习体验的过程中再进行补充.
绪论
科学发展范式:实验 (经验) 科学 理论科学 计算科学 数据科学。
属性分类:定性、定量。其中定性属性可以分为三类(二元属性、标称属性、序数属性);定量属性即数值属性,可以用合适的 统计量 进行描述。
统计量:
- 中心趋势度量:用来描述数据集中心位置的统计量,它反映了数据的平均水平或典型值。例如:
- 算术平均数(受计算数据的影响大)
- 调和平均数(特定场景)
- 中位数(适用于序数申诉信,表示位置信息,不受极差影响)
- 众数(不受极差影响)
- 离散度度量:用来描述数据分布的广泛程度,即数据值偏离其中心趋势的程度。例如:
- 极差(适用于数据极端值较少且分布不复杂的场景)
- 标准差(解释性比方差更好,反应数据与均值之间的关系,对极端值敏感)
- 四分位数间距(反应数据内部的离散程度,容易忽略极端数据)
可视化策略:
- 箱型图、五数概括、直方图。有助于可视化单个属性的分布情况
- 饼图。有助于表示单个属性的数据分布占比情况。
- 散点图。有助于可视化两个属性的相关关系。
邻近性度量(当我们在对「两个数据对象」进行邻近性度量计算时,是将所有同一个类别的属性联合起来计算的,例如当我们在计算二院属性的相异性或者相似性时,是将所有的二元属性联合起来一起计算的),下面讲一下不同属性类别的邻近性度量方法:
- 标称属性。我们在实际计算两个对象的标称属性的相似或相异性时,一般为了便于计算,需要进行编码。然后再比较两个数据对象的所有标称属性中相同或相异的编码个数占总标称属性数量的大小。
- 二元属性。与标称属性类似,相异性的计算就是计算 00 和 11 的二元属性取值数量,相异性计算是,如果对称属性,则为 10 和 01 的数量,如果是非对称属性,则为 10 或 01 的数量。
- 数值属性。闵可夫斯基距离(h = 1 为曼哈顿距离,h = 2 为欧氏距离,h = 为切比雪夫距离)、余弦距离(偏向于语言上描述两个对象的相似性,并不具备三角不等式关系)。
- 序数属性。使用排名法对属性的每一个可能的取值进行编码,然后归一化到 范围内,最后就可以使用上面的数值属性的方法进行两个数据对象的邻近性度量。
- 混合属性。如果出现了不止一种上述类别的属性,可以采用加权平均的方式进行邻近性度量。