《数据挖掘:概念与技术》读书笔记(三)

大数据 2017-08-28

  1. 数据清洗是检测数据错误的过程,并在可能的情况下对其进行纠正。数据转换是将异构数据源转换为统一数据仓库格式或语义的过程。刷新将更新从数据源到仓库的过程。
  1. 数据仓库中星型模式雪花模式的区别:它们是相似的,因为它们都有一个数据表,以及一些维度表。主要区别在于,雪花模式中的某些维度表被归一化,从而进一步将数据分割为其它表。星型模式的优点是其简单性,这将提高效率,但它需要更多的空间。对于雪花模式,它通过共享公用表减少了一些冗余:表易于维护并节省一些空间。然而,与数据表的大小相比,效率较低,空间的节省可以忽略不计。因此,通常星型模式更简单,因为只要空间要求不是太大,效率通常比空间优先。在行业中,有时来自雪花模式的数据可能被非规范化为星型模式以加速处理。另一个选择是使用雪花模式来维护维度,然后将具有相同数据的用户展示为一个星型。

  2. 流行的数据仓库实现是构建一个称为数据立方体的多维数据库。然而,这可能经常产生一个巨大但非常稀疏的多维矩阵,例如从电话公司计费数据库生成的数据,其中记录每个客户的帐单信息,例如联系信息,支付方式,付款日期和详细的通话记录。对于电话公司,为每个客户保留详细的通话记录超过三个月将是非常昂贵的。因此,从数据库中删除该信息将是不可避免的,仅保留呼叫总数,总分数以及计费金额。计费数据库生成的计算数据多维数据集将具有大量丢失或删除的数据,从而导致巨大和稀疏的数据立方体。

  3. 用于实现多维视图的ROLAP技术包括位于关系型后端服务器和客户端连接工具之间的中间服务器,从而使用关系型或扩展关系DBMS来存储和管理仓库数据,以及OLAP中间件支持丢失的部分。MOLAP实现技术由服务器组成,它们通过基于阵列的多维存储引擎支持数据的多维视图,将多维视图直接映射到数据立方体数组结构。HOLAP实现方法结合了ROLAP和MOLAP技术,这意味着大量的详细数据和一些非常低级别的聚合可以存储在关系数据库中,而一些高级聚合保存在单独的MOLAP存储中。

  4. 信息处理涉及查询使用交叉表,表格,图表或图表查找和报告有用的信息。分析处理使用基本OLAP操作,如切片,向下钻取,汇总和在历史数据上进行转换,以便提供数据仓库数据的多维分析。数据挖掘使用知识发现来查找隐藏的模式和关联,构建分析模型,执行分类和预测,以及使用可视化工具呈现挖掘结果。OLAP挖掘背后的动机如下:数据仓库中高质量的数据(即集成,一致和清除数据)是OLAP以及数据挖掘的有价值的来源。围绕数据仓库的可用信息处理基础设施意味着不需要从头开始构建综合信息处理和数据分析基础设施。通过将在线分析挖掘与数据/知识可视化工具相结合,可以实现基于OLAP的探索性数据分析,以允许用户遍历数据库,选择相关数据的一部分,以不同的粒度进行分析,并将知识/结果呈现在不同的粒度形式。在线选择数据挖掘功能允许可能不知道他们想要挖掘哪种知识的用户选择所需的数据挖掘功能和动态交换数据挖掘任务的灵活性。

本文由 Tony 创作,采用 知识共享署名 3.0,可自由转载、引用,但需署名作者且注明文章出处。

赏个馒头吧