分类 大数据 下的文章

分布式tensorflow搭建实践


工业中面临的常常是庞大的数据计算量,采用单一的tensorflow不能完全解决问题,需要结合hadoop,kafka,GPU,C++ 来进行加速和搭建系统。官方的whl安装包不能满足系统要求,通过源码编译安装来加快运行速度。

在此前请先搭建hadoop环境,安装bazel,我的环境 Ubuntu18.04,python3,hadoop2.7

一. 编译本地tensorflow安装包

1.clone tensorflow源代码到本地

2.进入 tensorflow目录下目录下 执行 ./configure


《数据挖掘:概念与技术》读书笔记(五)


  1. 聚类是将数据分组成类或集群的过程,并且集群中的对象彼此之间具有高相似性,但与其他集群中的对象不相似。聚类方法有以下几种:(1)分区方法:给定n个对象或数据元组的数据库,分区方法构造k个数据分区,其中每个分区表示一个集群,k≤n。 给定k,构造的分区数,它创建一个初始分区。 然后,它使用迭代重定位技术,尝试通过将对象从一个组移动到另一个组来改进分区。良好分区的一般标准是同一集群中的对象彼此“接


《数据挖掘:概念与技术》读书笔记(四)


  1. 决策树分类的主要步骤:(1)树以包含所有训练元组的单个根节点开始。(2)如果元组全部来自同一个类,那么该节点就成为一个叶子,用该类标记。(3)否则,调用属性选择方法来确定分割标准。这种方法可以使用启发式或统计测量(例如,信息增益或基尼系数索引)来选择“最佳”方式将元组分成单独的类。分割标准由分割属性组成,并且还可以指示分裂点或分割子集。(4)接下来,节点标有分割标准,作为节点的测试。分支从节点生长到分裂标准的每个结果,并且元组被相应地分割。这种分区有三种可能的情况:如果分割属性是离散值的,则为属性的每个可能的值生成分支;如果分割属性A是连续值,则生成两个分支,对应于条件A≤分裂点和A>分割点;如果分割属性是离散值,并且必须生成二叉树(例如,如果使用基尼系数作为选择度量),则节点处的测试是“A∈SA”,其中SA是分解A的 子集。它是A的已知值的子集。如果给定元组具有A的值aj,并且如果aj∈SA,则满足节点处的测试。(5)算法递归,为每个分区的元组创建一个决策树。停止条件:(1)如果给定节点上的所有元组属于同一个类,则将该节点转换为叶,并标记该类。(2)如果没有更多的属性可以创建更多的分区,那么可以使用多数来将给定的节点转换成一个叶子,标记为元组中最常见的类。(3)如果给定分支没有元组,则从父节点创建具有多数类的叶。


《数据挖掘:概念与技术》读书笔记(二)


  1. 如何评价数据质量:可用于评估数据质量的特性包括:及时性,可信度,增值性,可解释性和可访问性。

  2. 如何处理缺失的元组(值):忽略;填充;使用全局常量替代;对分类使用定量值;对同类样本给予相同值;使用最可能的值替代。