分类 大数据 下的文章

《数据挖掘:概念与技术》读书笔记(一)


  1. 基本概念:数据挖掘是指从大量数据中提取或“挖掘”有趣的知识或模式的过程或方法。数据挖掘是由于广泛的数据可用性以及将这些数据转化为有用的信息和知识的需求产生的。因此,数据挖掘可以被视为信息技术自然演进的结果。数据挖掘不仅仅是数据库统计学机器学习技术的简单转换。相反,数据挖掘涉及数据库技术,统计学,机器学习,高性能计算,模式识别,神经网络,数据可视化,信息检索,图像和信号处理等多个学科,而不是简单的转换。数据库技术开始于数据收集和数据库创建所带来的开发数据管理的有效机制,包括数据存储和检索,以及查询和事务处理。最终提供查询和事务处理的大量数据库系统自然导致了对数据分析和理解的需求。数据挖掘的过程可分为(1)数据清洗 (2)数据组成 (3)数据选择(4)数据转换(5)数据挖掘(6)模式评估(7)知识表示


使用Cloudera搭建Hadoop开发环境


  由于Hadoop深受客户欢迎,许多公司都推出了各自版本的Hadoop,也有一些公司则围绕Hadoop开发产品。在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。   当然你也可以选择自己下载hadoop源码进行安装hadoop下载,最新版本已经到2.7,建议的安装环境是Ubuntu和CentOS,安装过程可以在网上找到很多参考,这里就不介绍了。   这里我使用Cloudera公司提供的虚拟机(VMware和VirtualBox版本都有),可以很便捷地搭建hadoop开发环境,毕竟我们的主要目的是学习hadoop,不应该把太多时间浪费在环境的配置上。cloudera-quickstart-vm的下载地址是下载链接。选择你需要的版本下载,我用的是VMware,压缩包大小有4G左右,解压后用VMware打开,将CPU改为4个,内存调为8G(你的本机内存不应该小于8G).运行后是一台配置好的CentOS虚拟机,可以很轻松地在上面开发运行Hadoop.