数据集的使用?数据集的使用正确的是?
约书亚阿拉贡在Unsplash上拍摄的照片
查看哪种模型最适合您的数据集的最简单方法!
当我们开始研究监督学习问题时,我们通常不确定哪些模型可以与现有数据集一起使用。一个可能的解决方案是从一个适用于许多数据集的模型开始(比如‘随机森林’),然后迭代。这样,我们就可以建立一个改进的基准。
进步不是由早起的人取得的。它是由懒惰的人试图找到更简单的方法来完成的。罗伯特海因莱因
最有可能的是,在某个时间点,你也考虑过把数据集上的模型都扔了,然后看看会发生什么。然而,这并不是那么简单的编码(或者说,它是乏味的),所以您可能已经放弃了这个想法,只是尝试了一些过去已经使用过的模型。然而现在,通过一个名为lazypredict的便捷库,您可以使用它来训练scikit-learn中的所有模型(以及更多模型,如XGBoost和LightGBM ),只需一行代码。听起来不错吧?让我们看看这在实践中是如何实现的!
实际例子
首先,您需要通过运行以下命令来安装库:
安装lazypredict
最有可能的是,您会遇到一些关于缺少库的错误,所以只需使用pip或conda单独安装它们。我将在后面提到这是一个可能的改进。然后,我们加载所需的库:
Lazypredict同时支持分类和回归问题,我就简单介绍一下。
分类任务
由于本文的想法是快速展示该库是如何工作的,所以我不使用任何特殊的数据集,而只使用scikit-learn中的样本数据集。对于分类任务,我使用乳腺癌数据集。我加载数据,并将其分为训练集和测试集。
对于任何熟悉scikit-learn的人来说,使用lazypredict非常容易和直观。在这种情况下,我们首先创建一个估计量LazyClassifier的实例,然后使用fit方法将其与数据进行拟合。通过在创建LazyClassifier的实例时指定predictions=True,我们还将接收每个观察的所有模型的预测。以防将来我们想把它们用于其他目的。此外,我们可以使用custom_metric参数来传递自定义指标,这些指标可用于评估模型的性能。
注意:通过查看代码,您可以在可用模型列表中查看排除的评估者。对于分类,我们收到了以下4个指标,并指出将模型拟合到我们的数据集所需的时间。
对于用户来说,另一个重要的隐患是库自动对数据集进行预处理。首先,它使用简单估算器来估计缺失值(数字要素的平均值和分类要素的恒定“缺失”值)。然后,它对数字函数使用StandardScaler,对分类函数使用OneHotEncoder或OrdinalEncoder(取决于基数唯一值的数量)。虽然这很方便,并且可以确保模型能够实际运行,但是一些用户可能更喜欢使用其他方法来预处理数据集。这就是为什么我认为这应该是图书馆的一个自愿的功能,而不是强制性的功能。
模型数据帧包含所有分类器的性能概要,而预测(此处未显示,因为数据帧很大)包含每个模型的所有预测。
返回任务
如前所述,回归任务与分类问题非常相似。我使用波士顿住房数据集并实例化另一个类-LazyRegressor。剩下的都是类比。
自然,包含模型性能的表对于回归任务有不同的指数,即R平方和RMSE。我们可以使用custom_metric参数来添加更多的内容(例如,MAPE)。为了使文章简洁,下表被截断了,但是可用回归的列表要长得多。
可能的改进
在简单使用了lazypredict库之后,我认为可以进行一些重大改进:
这非常简单,但是要确保库有正确的依赖列表,这样用户就不必根据收到的错误手动安装每个库,
允许访问最佳/所有训练模型,现在我们只能看到包含结果和预测的表格。
并行训练模型——对于小数据集不是问题,但是对于大数据集可以加速,
创建一个特殊的预测方法来获得预测,
将默认预处理设置为可选并明确记录,
允许一些超级参数调整。
结论
Lazypredict是一个方便的包装器库,使我们能够快速将所有模型放入数据集并比较它们的性能。通过这种方式,我们可以看到‘开箱即用’的效果很好。但是,这并不是模型训练和选择的灵丹妙药,因为只训练默认变量。众所周知,超级参数调整可以极大地改变性能。
您可以在我的GitHub上找到本文中使用的代码。一如既往,我们欢迎任何建设性的反馈。你可以在推特上或者评论里联系我。
参考
(本文翻译自Eryk Lewinson的文章《Lazy Predict: fit and evaluate all the models from scikit-learn with a single line of code》听数字跳舞。转载请注明出处。原文链接是:3359 towards data science . com/lazy-predict-fit-and-evaluate-all-the-models-from-sci kit-learn-with-a-。
本文来自网络,不代表「专升本要什么条件_专升本要几年_成人高考专升本_山东专升本信息网」立场,转载请注明出处:http://www.sdzsb8.cn/zsxx/29426.html
- 上一篇:年湖北安全员证考试题库每题解析
- 下一篇:大学生参军入伍有什么好处?