分类 算法 下的文章

K-均值聚类算法


Wiki百科:K-平均算法

  K-均值聚类算法是一种无监督的机器学习算法,所谓无监督简单来说就是事先不告诉计算机需要做什么让其主动学习,具体来说,就是设计分类器时候,让程序处理未被分类标记的样本集。   K-均值聚类算法同时是聚类方法的一种,而聚类是将不同数据划分为相同特征集合的一种方式。K代表了数据集的数目。


用AdaBoost元算法提高分类性能


维基百科:AdaBoost

  首先介绍一下元算法,它是对其它算法进行组合的一种方式,而AdaBoost就是其中一种元算法。   在分类过程中我们可以将不同的方法进行组合,无论是kNN还是朴素贝叶斯,它们的组合叫做集成方法或者元算法,这既可以是一种算法的不同设置,也可以是不同算法的分配。   boosting方法从原始数据集选择S次后获得S个新数据集,是通过集中关注已有分类器错分的数据来获得新的分类器,分类器中的权重并不相同,权重代表的是上一轮迭代的成功度。Adaboost只是其中一个版本。


支持向量机(SVM)初探


wiki百科参考:链接 链接:开源的LIBSVM库

  要想理解SVM,需要掌握一些理论基础才能进行编码,接下来让我们逐步学习。   SVM有许多实现方法,这里介绍的是序列最小优化(SMO)算法(参考链接)   简单来说,SMO是一种解决支持向量机优化问题的迭代算法。由于目标函数为凸函数,一般的优化算法都通过梯度方法一次优化一个变量求解二次规划问题的最大值,但是,对于以上问题,由于限制条件存在,当某个从更新到时,上述限制条件即被打破。为了克服以上的困难,SMO采用一次更新两个变量的方法。

   1.png


Logistic回归简介


  参考:Logistic回归

  Logister回归是一种最优化算法,所谓回归就是假设你有一些数据点,用一条直线对它们进行拟合,这个拟合过程就是回归。   基于梯度上升的最优化方法,梯度上升的思想就是找到某函数的最大值,最好的函数沿该函数的梯度方向探寻。详细解释可以看wiki百科:参考链接。    为了便于理解,可以看下图    2.png


朴素贝叶斯(Naive Bayesian)分类算法


  贝叶斯算法是一种概率论的方法,‘朴素’表示该过程只是最简单的假设。朴素贝叶斯算法可用于构建分类器并应用于垃圾邮件过滤,文档分类等。   算法分析   优点:数据量少仍然有效,可处理多种类别问题   缺点:对输入数据的准备方式敏感   适用数据:标称型

  朴素贝叶斯的方法其实就是利用条件概率的方法对目标进行分类,比如在文档分类的过程中,我们必须先准备词袋模型,即需要过滤的的敏感词,并运用条件概率公式 1.png计算出结果,具体过程如下: