《数据挖掘:概念与技术》读书笔记(一)

大数据 2017-08-26

  1. 基本概念:数据挖掘是指从大量数据中提取或“挖掘”有趣的知识或模式的过程或方法。数据挖掘是由于广泛的数据可用性以及将这些数据转化为有用的信息和知识的需求产生的。因此,数据挖掘可以被视为信息技术自然演进的结果。数据挖掘不仅仅是数据库统计学机器学习技术的简单转换。相反,数据挖掘涉及数据库技术,统计学,机器学习,高性能计算,模式识别,神经网络,数据可视化,信息检索,图像和信号处理等多个学科,而不是简单的转换。数据库技术开始于数据收集和数据库创建所带来的开发数据管理的有效机制,包括数据存储和检索,以及查询和事务处理。最终提供查询和事务处理的大量数据库系统自然导致了对数据分析和理解的需求。数据挖掘的过程可分为(1)数据清洗 (2)数据组成 (3)数据选择(4)数据转换(5)数据挖掘(6)模式评估(7)知识表示
  1. 数据挖掘对企业的意义:公司可以使用数据挖掘进行邮件营销活动——使用诸如关联挖掘,商店可以使用开采的强关联规则来确定一组客户购买的产品有可能导致某些其他产品的购买。 通过这些信息,商店可以将营销材料邮寄给那些购买额外产品可能性很高的客户。仅仅是数据查询无法发现关联性,简单的统计分析也不能处理大量数据,例如百货公司的客户记录数据。
  1. 数据挖掘组件包括哪些:(1)数据库,数据仓库或其他信息库(2)数据库,数据仓库服务器(3)一个包含领域知识的知识库 (4)数据挖掘引擎 (5)模式评估组件 (6)可视化接口

  2. 数据仓库与数据库的异同:数据仓库是从多个来源收集的信息的存储库,其时间历史记录在统一模式下,用于数据分析和决策支持; 而数据库是表示存储数据的当前状态的相关数据的集合。可能有多个异构数据库,其中一个数据库的模式可能不符合另一个数据库的模式。数据库系统支持即时查询和在线事务处理。数据仓库和数据库之间的相似性:两者都是信息存储库,存储大量的持久性数据。

  3. 各种数据库的描述:面向对象的数据库是基于面向对象的编程范例而设计的,其中数据是按类划分和类层次结构的大量对象。数据库中的每个实体都被视为一个对象。该对象包含描述对象的一组变量,该对象可作为与其他对象或其余数据库系统通信的一组消息,以及一组方法,其中每个方法都保存代码以实现消息。空间数据库包含空间相关数据,其可以以光栅或矢量数据的形式表示。 光栅数据由n维位图或像素图组成,矢量数据由线,点,多边形或其他类型的处理原语表示。空间数据库的一些示例包括地理(地图)数据库,VLSI芯片设计,医疗和卫星图像数据库。文本数据库是一个包含长句或段落的文本文档或其他单词描述,如产品规格,错误或错误报告,警告消息,摘要报告,注释或其他文档的数据库。多媒体数据库存储图像,音频和视频数据,并且用于诸如基于图像内容的检索,语音邮件系统,视频点播系统,万维网和基于语音的用户界面的应用中。万维网提供丰富的全球在线信息服务,将数据对象链接在一起,以促进交互访问。

  4. 表征是对目标类数据的一般特征或特征的总结。区分是目标类数据对象的一般特征与来自一个或一组对比类的对象的一般特征的比较。关联是发现关联规则,显示在给定的一组数据中频繁出现的属性值条件。 分类与预测不同之处在于,前者构建了一组描述和区分数据类或概念的模型(或函数),而后者构建了一个模型来预测一些丢失或不可用的数据值。 它们的相似之处在于它们都是预测的工具:分类用于预测数据对象的类标签,预测通常用于预测缺失的数值数据。聚类分析数据对象,而无需查看已知的类标签。 基于最大化类间相似性并最小化类间相似性的原则,对象被聚类或分组。形成的每个集群可以被看作是一类对象。聚类也可以促进分类法的形成,也就是将观察组织到将类似事件组合在一起的类的层次结构中。数据演进分析描述和模拟行为随时间变化的对象的规律或趋势。虽然这可能包括时间相关数据的表征,鉴别,关联,分类或聚类,但是这种分析的不同特征包括时间序列数据分析,序列或周期性模式匹配以及基于相似性的数据分析。

  5. 数据挖掘任务原语:(1)任务相关数据:该原语指定要执行挖掘的数据(2)要挖掘的知识类型:该原语指定要执行的特定数据挖掘函数,如表征,区分,关联,分类,聚类或进化分析。(3)背景知识:此原语允许用户指定有关要挖掘领域的知识。(4)模式相关度方法:该原语允许用户指定用于将不感兴趣的模式与知识分开的函数,并可用于指导挖掘过程以及评估所发现的模式。(5)可视化发现的模式:这个原语是指要显示的图案形式。为了使数据挖掘有效地将知识传达给用户,数据挖掘系统应能够以多种形式显示发现的模式,例如规则,表格,交叉表格,饼图或条形图,决策树,立方体或其他视觉表示。

  6. 概念层次在数据挖掘中的作用:概念层次结构定义了从一组较低级别概念到更高级别的映射序列。它们在数据挖掘中是有用的,因为它们允许在多个抽象层次上发现知识,并提供可以将数据推广或专门化的结构。通过这些操作,用户可以从不同的角度查看数据,进一步了解隐藏在数据中的关系。广义化具有压缩数据集的优点,并且压缩数据集上的挖掘将需要更少的I/O操作。这将比在大型未压缩数据集上的挖掘效率更高。

  7. 如何检测异常值:(1)使用聚类技术:聚类后,不同的聚类表示不同类型的数据(事务)。 异常值是不属于任何集群的数据点。 在各种聚类方法中,基于密度的聚类可能是最有效的。(2)使用预测(或回归)技术:根据所有数据构建概率(回归)模型。 如果数据点的预测值与给定值有很大差异,则给定值可能被认为是异常值。

  8. 将数据挖掘系统与数据库或数据仓库系统集成在一起的方法:无耦合,松耦合,半耦合和紧耦合。不考虑技术或实现问题紧密耦合是最好的选择。然而,紧密耦合的系统中所需的技术仍然在不断发展。因此,最流行的架构目前是半耦合,因为它提供松耦合和紧耦合之间的折衷。

  9. 数据挖掘和用户交互挑战:(1)在数据库中挖掘不同类型的知识,不同的用户对不同类型的知识感兴趣,并且将需要广泛的数据分析和知识发现任务,如数据表征,区分,关联,分类,聚类,趋势和偏差分析以及相似性分析。这些任务中的每一个将以不同的方式使用相同的数据库,并且将需要不同的数据挖掘技术。(2)在多层次的抽象中交互式挖掘知识,使用数据立方体上的OLAP操作,允许用户集中搜索模式,根据返回的结果提供和优化数据挖掘请求。然后,用户可以交互地查看数据,并以多个粒度和不同的角度发现图案(3)背景知识或关于正在研究的领域的信息,如完整性约束和扣除规则,可用于指导发现过程,并允许以简洁的术语和不同的抽象级别表达发现的模式。这有助于集中和加快数据挖掘过程或判断发现的模式。

  10. 挖掘大量数据的难点:数据挖掘算法的效率和可扩展性。数据挖掘算法必须是高效和可扩展的,以便在可预测和可接受的运行时间内有效地从数据库中的大量数据中提取信息。 另一个挑战是数据挖掘算法的并行,分布和增量处理。许多数据库的巨大规模,数据的广泛分布以及一些数据挖掘方法的计算复杂性,对并行和分布式数据挖掘算法的需求已经产生了。由于一些数据挖掘过程的成本高,增量数据挖掘算法结合了数据库更新,而不需要从头开始挖掘整个数据。

  11. 数据挖掘面临的挑战:(1)数据流分析提出了多重挑战。首先,数据流不断流入和流出以及动态变化 成功处理这种数据的数据分析系统需要实时,能够适应可能出现的变化的模式。另一个主要的挑战是流数据的大小可能是巨大的甚至是无限的。由于这种大小,通常仅允许单个或少量的扫描。(2)生物信息学领域包括许多其他子领域,如基因组学,蛋白质组学,分子生物学和化学信息学。这些单个子场中的每一个都有许多研究挑战。

本文由 Tony 创作,采用 知识共享署名 3.0,可自由转载、引用,但需署名作者且注明文章出处。

赏个馒头吧