FP-growth算法简介


  参考:FP-growth

  FP-growth算法是一种高效的频繁集挖掘算法。它基于Apriori,但不同之处在于将数据集存储在FP树结构中,从而加快执行效率。FP-growth只需要对数据进行两次扫描,Apriori对潜在的频繁项集都会扫描,从而降低了效率。

  那么什么是FP数结构?


有感支付宝的「集福红包」


起步

在微信推出照片红包后,支付宝推出集福红包,如果说模糊照片抓住了用户的好奇心理,每次点击的随机展示一小块清晰部分,又抓住了“窥探欲”,利用好友关系链复杂满足用户讨红包的渴望;而支付包则是 贪!婪!


Apriori关联算法简介


Wiki链接:关联规则

  Apriori算法是基于关联分析的产生算法,关联分析即从数据集中寻找物品的隐含关系。比如超市对顾客的购买记录数据库进行关联规则挖掘,可以发现顾客的购买习惯。经典的有购物篮分析。Apriori算法提供了一种更高效的搜寻方法。   Apriori算法的主要作用在于发现频繁项集和关联规则,首先需要发现频繁项集(链接)。Apriori算法接受接受两个参数,最小支持度和数据集,通过扫描数据集发现满足最小支持度的项集。


K-均值聚类算法


Wiki百科:K-平均算法

  K-均值聚类算法是一种无监督的机器学习算法,所谓无监督简单来说就是事先不告诉计算机需要做什么让其主动学习,具体来说,就是设计分类器时候,让程序处理未被分类标记的样本集。   K-均值聚类算法同时是聚类方法的一种,而聚类是将不同数据划分为相同特征集合的一种方式。K代表了数据集的数目。


用AdaBoost元算法提高分类性能


维基百科:AdaBoost

  首先介绍一下元算法,它是对其它算法进行组合的一种方式,而AdaBoost就是其中一种元算法。   在分类过程中我们可以将不同的方法进行组合,无论是kNN还是朴素贝叶斯,它们的组合叫做集成方法或者元算法,这既可以是一种算法的不同设置,也可以是不同算法的分配。   boosting方法从原始数据集选择S次后获得S个新数据集,是通过集中关注已有分类器错分的数据来获得新的分类器,分类器中的权重并不相同,权重代表的是上一轮迭代的成功度。Adaboost只是其中一个版本。