分类算法之支持向量机:SVM(应用篇)

Python,机器学习 2017-12-11

起步

本次会有多个例子来说明如何使用 sklearn 中的支持向量机。

示例一

20171211140441.png

如图,在二维空间中,有三个点:(1, 1) (2, 0) (2, 3) 。前两个点属于一类,第三个点属于另一类,我们使用这个例子来简单说明 sklearn 中 SVM 的初步用法:

from sklearn import svm

X = [[2, 0], [1, 1], [2,3]]
Y = [0, 0, 1]
clf = svm.SVC(kernel = 'linear')
clf.fit(X, Y)

# 查看模型
print(clf) # output: SVC(C=1.0, class_weight=None, ...)

# 打印出支持向量
print(clf.support_vectors_) # [[ 1.  1.], [ 2.  3.]]

# 支持向量在数据集中的索引
print(clf.support_) # output: [1, 2]

# 各类结果中的支持向量的个数
print(clf.n_support_) # output: [1, 1]

# 预测
print(clf.predict([[2, 2]])) # output: [1]

在这个案例中,有两个点是支持向量:(1, 1) (2, 3),因此通过 clf.support_vectors_ 可以得到具体的点。这些支持向量点在数据集中是第几条记录呢,可以通过 clf.support_ 得到。在这个例子中,分界线的两侧各有一个支持向量,因此 clf.n_support_ 的结果为 [1, 1]

示例二

在这个例子中,我们提高点的个数,以及将超平面画出来,进行可视化展示。先来构造这个模型:

# coding: utf-8
import numpy as np
from sklearn import svm

np.random.seed(0) # 使用相同的seed()值,则每次生成的随即数都相同
# 创建可线性分类的数据集与结果集
X = np.r_[np.random.randn(20, 2) - [2, 2], np.random.randn(20,2) + [2, 2]]
Y = [0] * 20 + [1] * 20

# 构造 SVM 模型
clf = svm.SVC(kernel='linear')
clf.fit(X, Y) # 训练

然后就是收集这些数据来画平面图,因为这是一个二维的模型,因此可以假设超平面方程为 w0x + w1y + b = 0 转为点斜式就是: y = -(w0/w1)x - (b/w1)

w = clf.coef_[0]
a = -w[0] / w[1] # 斜率
xx = np.linspace(-5, 5) # 在区间[-5, 5] 中产生连续的值,用于画线
yy = a * xx - (clf.intercept_[0]) / w[1]

这样就从超平面中取了若干个点,用于画直线用,接下来就是找出与超平面平行并通过支持向量的直线找出来,因为这三条线是平行的,所以斜率一样,只有截距不一样。

b = clf.support_vectors_[0] # 第一个分类的支持向量
yy_down = a * xx + (b[1] - a * b[0])

b = clf.support_vectors_[-1] # 第二个分类中的支持向量
yy_up = a * xx + (b[1] - a * b[0])

利用 pylab 库,可以将这3条直线和训练点画出来:

import pylab as pl

pl.plot(xx, yy, 'k-')
pl.plot(xx, yy_down, 'k--')
pl.plot(xx, yy_up, 'k--')
pl.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1],
           s=80, facecolors='none')
pl.scatter(X[:, 0], X[:, 1], c=Y, cmap=pl.cm.Paired)

pl.axis('tight')
pl.show()

得到图像:

20171211153432.png

实例三:人脸识别

这个例子中用到照片,sklearn 提供一个图片的获取函数:

from sklearn.datasets import fetch_lfw_people
lfw_people = fetch_lfw_people(min_faces_per_person=70, resize=0.4)

运行后,fetch_lfw_people 会下载图片,默认存在 ~/scikit_learn_data 文件夹中。

人脸数据集基本信息

from sklearn.datasets import fetch_lfw_people
lfw_people = fetch_lfw_people(min_faces_per_person=70, resize=0.4)

n_samples, h, w = lfw_people.images.shape   # 获取图像数据集的形状,绘图使用

# 获取特征数据集和结果集
X = lfw_people.data
Y = lfw_people.target

n_features = X.shape[1]  # 特征的个数,或称为特征的维数
target_names = lfw_people.target_names # 数据集中有多少个人,以人名组成列表返回
n_classes = target_names.shape[0]
print("===== 数据集中信息 =====")
print("数据个数(n_samples):", n_samples)  # output: 1288
print("特征个数,维度(n_features):", n_features) # output: 1859
print("结果集类别个数(n_classes):", n_classes) # output: 7

从这可以看出,在这个数据集中,有 1288 条实例,特征向量的维度是 1859 ,共有 7 种分类结果。

拆分训练集和测试集

将数据集分成训练集和测试集,这样的好处是,不用额外找图片作为测试集,而且从数据集中分离的数据,是包含分类结果的,这样有利于我们对结果预测的对比。利用 sklearn 中提供的 train_test_split 可以进行这样的划分:

from sklearn.model_selection import train_test_split

# 拆分训练集和测试集
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.25)

这个函数返回四个结果,训练集特征向量,测试集特征向量,训练集归类标记,测试集归类标记。

特征降维处理

原始数据的特征向量维度是非常高的(1859维),这就意味着,训练模型的复杂度非常高,因此,需要通过一定的手段将特征值进行降维操作,来提高性能。有时降维处理后的数据,反而能提高准确性,这是因为可以减少噪点带来的影响。本例子采用 PCA 的降维方法。

from sklearn.decomposition import PCA

n_components = 150
t0 = time.time()
pca = PCA(n_components=n_components, whiten=True).fit(X_train)
print("pca done %0.3fs" % (time.time() - t0))

t0 = time.time()
X_train_pca = pca.transform(X_train)
X_test_pca  = pca.transform(X_test)
print("data set to pca done %0.3fs" % (time.time() - t0))

n_components 表示要保存的组件的数目,也即保留下来的特征个数 n,我们设置为目标维度为 150 ,然后调用 PCA(n_components=n_components, whiten=True).fit(X_train) 通过训练集进行降维模型的建模。再调用模型对象的 .transform 将训练集转为化降维后的数据。

提取特征点

# 从人脸中提取特征点
eigenfaces = pca.components_.reshape((n_components, h, w))

这是处理后的特征点,后续的图像可视化会用到这个。

构造 SVM 分类器

from sklearn import svm
from sklearn.model_selection import GridSearchCV

# 构造分类器
t0 = time.time()
param_grid = {
    "C": [1e3, 5e3, 1e4, 1e5],
    "gamma": [0.0001, 0.0005, 0.001, 0.005, 0.01, 0.1]
}

clf = GridSearchCV(svm.SVC(kernel='rbf', class_weight='balanced'), param_grid=param_grid)
clf.fit(X_train_pca, Y_train)
print("fit done %0.3fs" % (time.time() - t0))
print(clf.best_estimator_)

sklearn 的 SVM 模型有很多参数, param_grid 这个参数有什么用呢? C 是一个对错误的部分的惩罚;gamma 的参数是这样的,对于不同的核函数会有不同的表现,gamma 表示使用多少比例的特征点,因为我们不知道哪些参数会产生最好的结果,因此使用不同的参数来训练,然后选取训练最好的模型。

因此使用不同值的 C 和不同值的 gamma ,进行多个量(5 x 6 = 30)的尝试,然后进行搜索,选出准确率最高的模型 ( 即代码中的 clf.best_estimator_ )。

预测

from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix

# 预测
t0 = time.time()
y_pred = clf.predict(X_test_pca)

print(classification_report(Y_test, y_pred, target_names=target_names))
print(confusion_matrix(Y_test, y_pred, labels=range(n_classes)))

预测的通常都是调用模型的 .predict 的方法,通过 classification_report 方法进行查看,可以得到预测结果中,哪些是正确的那些是错误的。

                   precision    recall  f1-score   support

     Ariel Sharon       0.78      0.70      0.74        20
     Colin Powell       0.79      0.84      0.82        76
  Donald Rumsfeld       0.81      0.71      0.76        31
    George W Bush       0.85      0.91      0.88       125
Gerhard Schroeder       0.78      0.75      0.77        24
      Hugo Chavez       0.94      0.83      0.88        18
       Tony Blair       0.91      0.75      0.82        28

      avg / total       0.83      0.83      0.83       322

confusion_matrix 是建一个 n x n 的方格,横行和纵行分别表示真实的每一组测试集的标记和测试集标记的差别,通常表示这些测试数据哪些对了,哪些错了。这个对角线表示了哪些值对了,对角线数字越多,就表示准确率越高。

[[ 14   3   0   2   1   0   0]
 [  2  64   1   9   0   0   0]
 [  2   2  22   5   0   0   0]
 [  0   8   3 114   0   0   0]
 [  0   1   1   2  18   1   1]
 [  0   1   0   0   1  15   1]
 [  0   2   0   2   3   0  21]]

测试结果可视化

将测试的记过进行展示,原先图片应该是谁,结果预测成谁,在此之前,先弄一个通用的图片可视化函数:

import matplotlib.pyplot as plt

def plot_gallery(images, titles, h, w, n_row=3, n_col=4):
    """Helper function to plot a gallery of portraits"""
    plt.figure(figsize=(1.8 * n_col, 2.4 * n_row))
    plt.subplots_adjust(bottom=0, left=.01, right=.99, top=.90, hspace=.35)
    for i in range(n_row * n_col):
        plt.subplot(n_row, n_col, i + 1)
        plt.imshow(images[i].reshape((h, w)), cmap=plt.cm.gray)
        plt.title(titles[i], size=12)
        plt.xticks(())
        plt.yticks(())

测试集和特征点可视化:

def title(y_pred, y_test, target_names, i):
    pred_name = target_names[y_pred[i]].rsplit(' ', 1)[-1]
    true_name = target_names[y_test[i]].rsplit(' ', 1)[-1]
    return 'predicted: %s\ntrue:      %s' % (pred_name, true_name)

prediction_titles = [title(y_pred, Y_test, target_names, i)
                     for i in range(y_pred.shape[0])]

plot_gallery(X_test, prediction_titles, h, w)

# plot the gallery of the most significative eigenfaces

eigenface_titles = ["eigenface %d" % i for i in range(eigenfaces.shape[0])]
plot_gallery(eigenfaces, eigenface_titles, h, w)

plt.show()

可以看到图片:

20171212115642.png

大部分的预测还是对的,右侧打印的图像是特征点的,这是一个抽象化的对特征的提取,虽然对人来说它的辨识度低,但对机器来说是很有帮助的。

总结

本章一共用了三个例子,从比较简单的例子深入,到图形可视化到一个复杂的人脸识别案例。


本文由 hongweipeng 创作,采用 知识共享署名 3.0,可自由转载、引用,但需署名作者且注明文章出处。

如果对您有用,您的支持将鼓励我继续创作!