分类 大数据 下的文章

《数据挖掘:概念与技术》读书笔记(五)


  1. 聚类是将数据分组成类或集群的过程,并且集群中的对象彼此之间具有高相似性,但与其他集群中的对象不相似。聚类方法有以下几种:(1)分区方法:给定n个对象或数据元组的数据库,分区方法构造k个数据分区,其中每个分区表示一个集群,k≤n。 给定k,构造的分区数,它创建一个初始分区。 然后,它使用迭代重定位技术,尝试通过将对象从一个组移动到另一个组来改进分区。良好分区的一般标准是同一集群中的对象彼此“接


《数据挖掘:概念与技术》读书笔记(四)


  1. 决策树分类的主要步骤:(1)树以包含所有训练元组的单个根节点开始。(2)如果元组全部来自同一个类,那么该节点就成为一个叶子,用该类标记。(3)否则,调用属性选择方法来确定分割标准。这种方法可以使用启发式或统计测量(例如,信息增益或基尼系数索引)来选择“最佳”方式将元组分成单独的类。分割标准由分割属性组成,并且还可以指示分裂点或分割子集。(4)接下来,节点标有分割标准,作为节点的测试。分支从节点生长到分裂标准的每个结果,并且元组被相应地分割。这种分区有三种可能的情况:如果分割属性是离散值的,则为属性的每个可能的值生成分支;如果分割属性A是连续值,则生成两个分支,对应于条件A≤分裂点和A>分割点;如果分割属性是离散值,并且必须生成二叉树(例如,如果使用基尼系数作为选择度量),则节点处的测试是“A∈SA”,其中SA是分解A的 子集。它是A的已知值的子集。如果给定元组具有A的值aj,并且如果aj∈SA,则满足节点处的测试。(5)算法递归,为每个分区的元组创建一个决策树。停止条件:(1)如果给定节点上的所有元组属于同一个类,则将该节点转换为叶,并标记该类。(2)如果没有更多的属性可以创建更多的分区,那么可以使用多数来将给定的节点转换成一个叶子,标记为元组中最常见的类。(3)如果给定分支没有元组,则从父节点创建具有多数类的叶。


《数据挖掘:概念与技术》读书笔记(二)


  1. 如何评价数据质量:可用于评估数据质量的特性包括:及时性,可信度,增值性,可解释性和可访问性。

  2. 如何处理缺失的元组(值):忽略;填充;使用全局常量替代;对分类使用定量值;对同类样本给予相同值;使用最可能的值替代。


《数据挖掘:概念与技术》读书笔记(一)


  1. 基本概念:数据挖掘是指从大量数据中提取或“挖掘”有趣的知识或模式的过程或方法。数据挖掘是由于广泛的数据可用性以及将这些数据转化为有用的信息和知识的需求产生的。因此,数据挖掘可以被视为信息技术自然演进的结果。数据挖掘不仅仅是数据库统计学机器学习技术的简单转换。相反,数据挖掘涉及数据库技术,统计学,机器学习,高性能计算,模式识别,神经网络,数据可视化,信息检索,图像和信号处理等多个学科,而不是简单的转换。数据库技术开始于数据收集和数据库创建所带来的开发数据管理的有效机制,包括数据存储和检索,以及查询和事务处理。最终提供查询和事务处理的大量数据库系统自然导致了对数据分析和理解的需求。数据挖掘的过程可分为(1)数据清洗 (2)数据组成 (3)数据选择(4)数据转换(5)数据挖掘(6)模式评估(7)知识表示