Scikit-learn安装
Scikit-Learn设计原则
参考论文API design for machine learning software: experiences from the scikit-learn project,这里给出Scikit-Learn的估计器模型一致具有的功能:
-
估算:能够根据数据集对于某些参数进行估算的对象称为估算器. 估算通过 fit()
函数执行,参数为数据集(包含一个或两个参数,第二个参数可以为数据集标签). 引导估算过程的其他参数称为超参数(可通过 *.strategy
查看),一般在构造实例时确定.
-
转换:部分估算器可以转化数据集称为转换器(例如 imputer
). 转换通过 transform()
函数执行,参数为待转换的数据集,返回的是转换后的数据集. 所有转换器都支持更为方便的函数 fit_transform()
,相当于先调用 fit()
再调用 transform()
函数.
-
预测:部分估算器可以基于给定的数据进行预测称为预测器(例如 LinearRegression
). 预测通过 predict()
函数执行,参数为待预测的数据集,返回数据集对应的预测结果. 还有可以进行评估,score()
用于衡量给定测试集的预测质量(输入为特征和对应标签).
-
检查模型:所有估计的超参数可以通过公共实例变量访问 *.strategy
,所有估计其的学习参数可以通过有下划线的后缀公共实例变量访问,例如*.statistics_
.
-
数据类型:Scikit-Learn中所有的数据集都会使用 Numpy
或者 SciPy
稀疏矩阵表示,超参数为Python字符串或者数字.
-
搭建估算器:可通过对转化器后加上预测器创建一个 Pipline
估算器.
数据处理
划分数据集
基于固定的随机种子进行的抽样.
均匀抽样
设定随机种子进行均匀划分,train_test_split(df, test_size=0.2, random_state=42)
:df为数据集,test_size为测试集比例,random_state为随机种子.
分层抽样
分层划分数据集,由于测试集需要代表整个数据集的整体信息,首先对数据特征进行层划分,在每一层中,我们希望都要有足够的信息来表示这种类别,表示该层的重要程度.
-
首先利用 pd.cut()
对层进行划分,例如划分为 [0,1.5,3,4.5,6,∞] 这样 5 段.
-
再使用Scikit中的api函数实例化划分模型 split=StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
:n_splits
表示划分的总数据集个数,test_size
为测试集占比,random_state
表示随机种子.
-
最后通过迭代方式生成训练集与测试集:train_idx, test_idx = next(split.split(df, df['income_cat']))
(由于只生成一个数据集,所以可以直接用next获取第一个迭代结果)
分层抽样与均匀抽象对于特定类别的抽样偏差(抽样偏差计算方法:(sample−base)/base∗100),这里以收入中位数进行划分为 5 类,如左图所示,右图中的前三列为总体、分层、均匀每层的数据占比,右侧为分层、均匀的抽样偏差.
绘制直方图及计算偏差表格代码
转换器
主要使用Scikit-Learn中的转化器进行数据集转化,转化器介绍请见Scikit-Learn设计原则.
简易处理缺失值
使用 SimpleImputer
类对数据集中的缺失值进行填补(对每一列均进行相同的策略进行填补). 填补策略 strategy
有 mean, median, most_frequent, constant
(默认为 mean
),当使用constant时会使用额外的参数 fill_value
进行填充.
特征缩放
Scikit-Learn中的特征缩放相关类属于 sklearn.preprocessing
,这里给出两个常用的缩放方法:
-
归一化 MinMaxScaler
,将数据集减去最小值后除以最大值,X = (X - np.min(X)) / np.max(X)
.
-
标准化 StandardScaler
,将数据集减去均值后除以标准差,X = (X - np.mean(X)) / np.std(X)
.
使用方法遵循转化器的使用方法,首先实例化,然后利用 .fit_transform(X)
对数据进行转化.
特征缩放类使用方法
自定义转换器
为了方便地使用Scikit-Learn功能(例如搭建 Pipline
),自定义的转换器一般需要满足如下三种函数:fit(), transform(), fit_transform()
,转换器中 fit()
可以直接返回 self
.
还可以通过添加父类 sklearn.base.BaseEstimator
这个类可以在实例化的过程中确定的超参数(构造函数中必须给定具体参数名称,不能有*arg或**kargs)进行保存,便于后续查看 get_params()
或修改 set_params()
;通过添加父类 sklearn.base.TransformerMixin
这个类可以自动生成 fit_transorm()
函数,无需自己重写.
这里以对原数据集的特征加入新的属性为例:
-
每户平均所用房间数: rooms_per_households
.
-
每户平均人口数:population_per_households
.
-
每间房的平均卧室数:bedrooms_per_rooms
. (可选是否添加)
由于原始数据为DataFrame格式,转化为numpy后无法通过列名进行查找,所以先要给定列名与索引的查找关系,所需列的索引编号分别有 total_rooms, total_bedrooms, population, households
.
编码器
文本转数字
使用 sklearn.preprocessing.OrdinalEncoder
转化器,每一个字符换转化为唯一对应的数字(从0开始). 用法如下
用数字表示类别,相近的数字可能会使机器认为两种类别相近,但实则不然,所以引入one-hot表示方法.
文本转one-hot向量
one-hot向量本质就是将类别以仅含有0,1的向量形式表示出来,例如总类别数目为5个,若当前样本属于类别0,则它对应的one-hot向量为 [1,0,0,0,0]
,即对应类别处为1,其他位置都是0.
使用 sklearn.preprocessing.OneHotEncoder
转化器可以很容易做到这点. 用法如下(转化结果为 SciPy
的稀疏矩阵形式,因为结果中有较多的 0
,为了节省内存,使用稀疏矩阵仅保存 1
的位置,可通过 .toarray()
显示稀疏矩阵的内容)
使用 .categories_
可以查看分类的名称.
加入 handle_unknown='ignore'
可以避免在transform中遇到了fit中未见过的类别(这种情况可能在OneHotEncoder在K-折交叉验证中出现)
数字编码与one-hot编码的对应关系
转换流水线
最为方便的数据预处理做法就是将上述的转换器全部堆叠起来,成为流水线式的转换操作,称之为 Pipline
.
在Scikit-Learn中 Pipline
是由一系列的转换器进行的堆叠(也就是必须要有 fit_transform()
函数),而堆叠的最后一个只需是一个估计器(也就是可以只有 fit()
函数),最后流水线也具有最后一个估计器的功能,如果最后一个估计器有 transform()
函数,那么流水线也有 fit_transform()
函数,如果最后一个估计器有 predict()
函数,那么流水线也具有 fit_predict()
函数.
通过 .named_steps
可以获得内部转换器模块,从而检查参数.
这里构造的流水线具有以下三个功能:
-
数据缺失值处理(中位数填补).
-
属性值添加(自定义的转换器).
-
特征缩放(标准化转换器).
Pipline
的构造函数包含一个元组列表,每个元组包含 (名称, 转化器)
,第一个属性为转化器的名称,命名自定义(不包含双下划线,不能重复),第二个属性为转化器构造函数
对不同列分别进行转换
由于原数据集中既有数字特征,也有文本特征,所以需要分别做预处理,sklearn.compose.ColumnTransformer
可以很好的完成这项操作. 它可以非常好的适配 DataFrame
数据类型,通过列索引找到需要处理的列,最后逇返回值,会根据最终矩阵的稠密度来判断是否使用稀疏矩阵还是密集矩阵(矩阵密度定义为非零值的占比,默认阈值为 sparse_threshold=0.3
)
构造函数中,需要一个元组列表,每个元组包含 名称, 转化器, 列索引列表
,名称同 Pipline
的要求(自定义,不重复,无双下划线),列索引列表可以直接为 DataFrame
中的列名.
通过 .named_transformers_
可以获得内部转换器模块,从而检查参数.
模型训练与评估
如果模型训练速度太慢,想看到训练进度可以在模型超参数设定处加入 verbose=1
,就可以看到训练进度,verbose
数字越大数据越详细.
常用模型
多分类模型
一些严格的二元分类器(SVM,线性分类器)也可以用于分类,有以下两种策略可以通过多个二元分类器实现多分类的目的:(例如创建一个模型将数字图像分类为0到9)
-
一对多(One vs Rest):训练10个二元分类器,每种数字一个,用于区分是或不是该数字,例如一个分类器用于划分是数字0或不是数字0,最后取最高的分类器对特定数字的决策分数作为整个模型的预测结果.
-
一对一(One vs One):训练 (102)=45 个二元分类器,每个分类器用于区分两种数字,例如区分0和1,0和2,1和2等等. 每个分类器得到一个预测结果,最后通过判断哪个类获胜最多作为模型的预测结果.
可以查看官方文档得到分类器对于多分类的实现方法.
线性模型
线性回归
sklearn.linear_model.LinearRegression
使用SVD分解求解线性模型(适合小数据量,复杂度约为 O(n2)),lin_reg.intercept_
返回截距(偏置项),lin_reg.coef_
返回各个特征属性值的对应系数.
sklearn.linear_model.SGDRegressor(max_iter=1000, loss='squared_error', penalty='l2', alpha=0.0001, learning_rate, eta0, random_state, l1_ratio)
使用随机梯度下降法求解线性模型(适合大数据量),使用均方误差损失函数,正则项默认使用参数的 ℓ2 范数,正则化系数为 alpha
,eta0
为初始学习率,学习率默认使用随迭代次数增加而递降的动态形式,递降策略由 learning_rate
控制,最大迭代次数为 max_iter
,随机种子为 random_state
,当正则项为弹性网络时,l1_ratio
为 l1
范数的占比.
多项式回归
Logistic回归
使用 sklearn.linear_model.LogisticRegression(C)
实现Logistic回归,默认使用 l2 正则化项,正则化系数为 1/C,如果不想使用正则化,可将 C 设置为较大值.
Softmax回归
也是使用 sklearn.linear_model.LogisticRegression(multi_class='multinomial')
,只需将 multi_class
设置为 multinomial
即可使用Softmax回归求解多分类任务(否则可能使用“一对多(OvR)”分类策略)
随机梯度下降优化SVM
适用于大数据训练,初始参数默认为 loss='hinge', max_iter=1000
,可以设定随机种子 random_state
.
绘制PR曲线
混淆矩阵,精度,召回率定义请见混淆矩阵-定义.
SGD
模型输出的是对样本的打分,而判断是否属于哪类则是通过阈值来确定的,默认阈值为 0
,对于二分类问题,阈值与召回率成负相关关系(因为如果将所有都预测为真,则召回率一定很好),我们可以根据不同的阈值从而获得不同的预测结果,对应不同的模型,从而绘制出精度与召回率的关系图.
首先需要求出模型对每个样本的打分,还是用过 cross_val_predict
获得,但是这里需要从模型的 decision_function
获得评分,而不是最后的预测结果,使用 method
可以选择最后模型输出的函数,默认为 method='predict'
.
最后使用 sklearn.metrics.precision_recall_curve
不同阈值下的精度与召回率的值,使用方法为
precision_recall_curve(y_true, probas_pred)
,第一个参数为标签真实值,第二个参数为所有可能的得分. 于是阈值会根据全部得分从小到大逐一选择,并求出对应精度与召回率. 返回值:精度,召回率,阈值.
注意:精度和召回率的维数为 (n_thresholds + 1,)
比阈值大1,精度最后一个元素为 1
,而召回率最后一个元素为 0
,绘图时记得将其删去.
绘制ROC曲线
ROC曲线的定义请见 PR曲线与ROC曲线.
使用 sklearn.metrics.roc_curve
获得 fpr, tpr, theresholds
对应结果(与 precision_recall_curve
曲线返回值相同)
注:由于有 drop_intermediatebool=True
参数,会自动舍弃一些次优阈值,使得曲线显示更加平滑(个人认为是求了凸包后的结果),所以返回结果中阈值个数可能远小于输入的样本个数.
使用 sklearn.metrics.roc_auc_score
还可以非常方便的求出ROC曲线的曲线下面积AUC.
决策树
K近邻
回归
一个有效的方法是用于对图像进行降噪处理,以MNIST数据集为例.
使用 sklearn.neighbors.KNeighborsRegressor
即可获得K近邻回归模型,并选取一些图像进行预测,显示图像的函数请见 常用命令 - Matplotlib 同时绘制多个图像 中的 plot_figures
.
下图中第一列为噪声图像,第二列为原图像,第三列为降噪后效果.
随机森林
回归模型
分类模型
使用 .predict_proba
可以获得预测的概率分布.
获取预测得分:当分类问题是二分类时,通过 cross_val_predict
获得预测的概率分布,然后将正例列切片作为得分.
通过得分可以绘制ROC曲线图,参考SGD模型绘制ROC曲线,随机森林与SGD的ROC曲线对比.
模型评估
交叉验证
一种简单的方法是使用 train_test_split
将训练集进一步划分为较小的训练集和验证集,然后使用较小的数据集进行训练,并在验证集上进行评估.
另一种方便的做法是使用Scikit-Learn中的K-折交叉验证功能 sklearn.model_selection.cross_val_score
,假设 K=10,则具体做法是将训练集随机划分为10个不同的子集,每个子集称为一个折叠,对模型进行10次训练与评估——每次选取1个折叠作为验证集,剩余9个折叠作为训练集,返回一个包含10次评分的数组,评分规则可以在 scoring
属性中设定.
cross_val_score(model, train_x, train_y, scoring=make_scorer(mean_squared_error), cv=10)
:待检验模型 model
,训练集特征 train_x
,训练集标签 train_y
,scoring
打分标准(这里使用均方误差 mean_squared_error
,还需要一个得分转化器,或者直接使用 neg_mean_squared_error
但返回的是负的均方误差),cv
为划分的折叠个数为.
如果训练速度太慢,可以在模型构建处加入 verbose
参数,数字越大数据越详细.
自定义K-折交叉验证
通过 sklearn.model_selection.StratifiedKFold
实现自定义的K-折交叉验证,使用方法和 cross_val_score()
类似,只不过这里将折叠数参数记为 n_splits
(默认为5),如果要保持相同的随机结果需要加入固定随机种子 random_state
并令 shuffle=True
.
下面以一个二分类器为例:
均方误差
在回归问题中,可以利用 sklearn.metrics.mean_squared_error
可以计算训练数据集上的均方误差MSE,另一个常用的是开更号后的结果RMSE.
混淆矩阵
定义
混淆矩阵的列是真实值,行是预测值,(i,j) 处的值表示真实值为 i 时,模型预测结果为 j 的个数.
在二分类的混淆矩阵的每个元素都有对应的名称:假设真实值与预测结果的列表排列均为 [假, 真]
,则每个位置的元素对应名称如下所示:
(1,1)
表示真负类(TN).
(1,2)
表示假正类(FP).
(2,1)
表示假负类(FN).
(2,2)
表示真正类(TP).
记忆方法非常简单,名称中第一个“真与假”表示是否预测正确,第二个“正与负”表示预测结果的类别.
有两个常用参数:
精度=TP+FPTP,召回率=TP+FNTP
- 精度(Precision):预测结果是真的时候,有多大概率是对的.
- 召回率(Recall):标签为真的时候,能有多大的概率预测对.(如果用假设检验的第一类错误来理解,设原假设为样本标签为真,那么“1-召回率”就是第一类错误)
一种评估精度与召回率的方法是 F1 参数(两者的调和平均数):
F1=精度1+召回率12
用法:使用F1一般是希望精度与召回率同时较高时所用,但是对于特定问题,可能仅需要某一种参数越高越好. 例如检测小偷,肯定希望召回率越高越好,也就是所谓的“宁可错杀一千,不可放过一个”;而视频筛选中,希望精度越高越好,因为我们希望即使错筛了很多好的视频,但是留下来的都是好的就行.
PR曲线与ROC曲线
精度-召回率曲线:模型通过得分是否超过阈值判断样本属于的类别,通过设定不同的阈值,从而可以得到不同的PR值,绘制出的曲线,一般称为PR曲线,一般也用PR曲线与x轴围成的面积(Area Under Curve, AUC)评估模型好坏(越大越好),面积计算可以使用 sklearn.metrics.auc
. 具体实现请见 SGD模型绘制PR曲线.
另一种常用的曲线称为 受试者工作特征曲线(Receiver Operating Characteristic Curve, ROC),绘制的是真正类率(TPR,召回率)和假正类率(FPR)的关系,而TPR就是之前定义的召回率,而FPR与特异度(TNR)定义相关,它们的定义如下
假正类率FPR=TN+FPFP,真负类率TNR(特异度)=1−FPR=TN+FPTN
不难发现,这种什么什么率就是按照混淆矩阵的行占比来定义的,例如上述两个FPR和TNR就分别是全部负类样本中被错误预测的概率的和被正确预测的概率,特别的TNR还被称为特异度.
实际使用中,我们会直接画出ROC曲线,然后用曲线下面积AUC来评判模型的好坏. 具体实现请见 SGD模型绘制ROC曲线
实现
使用 sklearn.metrics.confusion_matrix(true_y, pred_y)
可以很容易地获得混淆矩阵. 而获得预测值的很好的一个方法是通过交叉验证返回的预测结果 sklearn.model_selection.cross_val_predict
. 由于只使用了训练集,使用交叉验证可以保证将训练集进一步划分为更小的训练集与验证集,保证了预测的干净(预测数据没有再训练中出现)
Scikit-Learn中可以很容易地计算出精度,召回率和 F1 参数,分别为 sklearn.metrics
中的 precision_score, recall_score, f1_score
,代入预测值与真实值即可计算出结果.
可视化
下面以MNIST数据集为例,使用 SGDClassifier
模型进行预测,通过 plt.matshow
绘制混淆矩阵图像,并绘制对应的每种类别的错误率.
通过 常用命令 - Matplotlib 同时绘制多个图像 中的 plot_figures
对错误率较高的图像(3与5)绘制混淆矩阵实例图.
模型微调
在通过交叉验证确定了有效的模型后,对其参数进行进一步微调.
网格搜索
通过Scikit-Learn的 sklearn.model_selection.GridSearchCV
可以方便的尝试模型不同给定的参数组合,其会在不同的参数组合下进行交叉验证,所以也有 cv
参数设置,交叉验证的打分结果默认为越大越好,所以是参数是负的均方误差 neg_mean_squared_error
.
return_train_score=True
可以返回模型在训练集上的打分(一般用于判断模型的过拟合程度).
verbose=2
可以看到具体算到第几个折叠了.
使用GridSearchCV自动探寻超参数:基于 complete_pipline
和双下划线 __
可以修改内部估计器的超参数. 这也就是不能用双下划线命名的原因.
这里建议将 error_score='raise'
参数进行设置,这样可以当输出值为 nan
时报出错误,从而便于调试错误的估计器.(有时候非常有用)
这里以随机森林的网格搜索为例.
随机搜索
通过 sklearn.model_selection.RandomizedSearchCV
可以方便的尝试各种随机参数组合,用法和 GridSearchCV
类似,只是多了两个属性:迭代搜索次数 n_iter
和随机种子random_state
.
通过 scipy.stats.randint
可以随机产生一定范围内的整数,便于尝试不同组合.(可以先用网格搜索找到参数的大致区间,然后再用随机搜索找更优的参数组合)
模型保存
Scikit-Learn训练好的模型可以通过 joblib.dump(model, 'model_name.pkl')
非常方便的保存,载入只需 joblib.load('model_name.pkl')
即可.
模型保存方法