关键词不能为空

数据集的使用(数据集的使用正确的是)

作者:admin
来源:http://www.sdzsb8.cn/zsxx/29426.html
日期:2022-07-26 09:45
评论:0
阅读 91

数据集的使用?数据集的使用正确的是?

数据集的使用(数据集的使用正确的是)

约书亚阿拉贡在Unsplash上拍摄的照片

查看哪种模型最适合您的数据集的最简单方法!

当我们开始研究监督学习问题时,我们通常不确定哪些模型可以与现有数据集一起使用。一个可能的解决方案是从一个适用于许多数据集的模型开始(比如‘随机森林’),然后迭代。这样,我们就可以建立一个改进的基准。

进步不是由早起的人取得的。它是由懒惰的人试图找到更简单的方法来完成的。罗伯特海因莱因

最有可能的是,在某个时间点,你也考虑过把数据集上的模型都扔了,然后看看会发生什么。然而,这并不是那么简单的编码(或者说,它是乏味的),所以您可能已经放弃了这个想法,只是尝试了一些过去已经使用过的模型。然而现在,通过一个名为lazypredict的便捷库,您可以使用它来训练scikit-learn中的所有模型(以及更多模型,如XGBoost和LightGBM ),只需一行代码。听起来不错吧?让我们看看这在实践中是如何实现的!

实际例子

首先,您需要通过运行以下命令来安装库:

安装lazypredict

最有可能的是,您会遇到一些关于缺少库的错误,所以只需使用pip或conda单独安装它们。我将在后面提到这是一个可能的改进。然后,我们加载所需的库:

Lazypredict同时支持分类和回归问题,我就简单介绍一下。

分类任务

由于本文的想法是快速展示该库是如何工作的,所以我不使用任何特殊的数据集,而只使用scikit-learn中的样本数据集。对于分类任务,我使用乳腺癌数据集。我加载数据,并将其分为训练集和测试集。

对于任何熟悉scikit-learn的人来说,使用lazypredict非常容易和直观。在这种情况下,我们首先创建一个估计量LazyClassifier的实例,然后使用fit方法将其与数据进行拟合。通过在创建LazyClassifier的实例时指定predictions=True,我们还将接收每个观察的所有模型的预测。以防将来我们想把它们用于其他目的。此外,我们可以使用custom_metric参数来传递自定义指标,这些指标可用于评估模型的性能。

注意:通过查看代码,您可以在可用模型列表中查看排除的评估者。对于分类,我们收到了以下4个指标,并指出将模型拟合到我们的数据集所需的时间。

对于用户来说,另一个重要的隐患是库自动对数据集进行预处理。首先,它使用简单估算器来估计缺失值(数字要素的平均值和分类要素的恒定“缺失”值)。然后,它对数字函数使用StandardScaler,对分类函数使用OneHotEncoder或OrdinalEncoder(取决于基数唯一值的数量)。虽然这很方便,并且可以确保模型能够实际运行,但是一些用户可能更喜欢使用其他方法来预处理数据集。这就是为什么我认为这应该是图书馆的一个自愿的功能,而不是强制性的功能。

模型数据帧包含所有分类器的性能概要,而预测(此处未显示,因为数据帧很大)包含每个模型的所有预测。

返回任务

如前所述,回归任务与分类问题非常相似。我使用波士顿住房数据集并实例化另一个类-LazyRegressor。剩下的都是类比。

自然,包含模型性能的表对于回归任务有不同的指数,即R平方和RMSE。我们可以使用custom_metric参数来添加更多的内容(例如,MAPE)。为了使文章简洁,下表被截断了,但是可用回归的列表要长得多。

可能的改进

在简单使用了lazypredict库之后,我认为可以进行一些重大改进:

这非常简单,但是要确保库有正确的依赖列表,这样用户就不必根据收到的错误手动安装每个库,

允许访问最佳/所有训练模型,现在我们只能看到包含结果和预测的表格。

并行训练模型——对于小数据集不是问题,但是对于大数据集可以加速,

创建一个特殊的预测方法来获得预测,

将默认预处理设置为可选并明确记录,

允许一些超级参数调整。

结论

Lazypredict是一个方便的包装器库,使我们能够快速将所有模型放入数据集并比较它们的性能。通过这种方式,我们可以看到‘开箱即用’的效果很好。但是,这并不是模型训练和选择的灵丹妙药,因为只训练默认变量。众所周知,超级参数调整可以极大地改变性能。

您可以在我的GitHub上找到本文中使用的代码。一如既往,我们欢迎任何建设性的反馈。你可以在推特上或者评论里联系我。

参考

(本文翻译自Eryk Lewinson的文章《Lazy Predict: fit and evaluate all the models from scikit-learn with a single line of code》听数字跳舞。转载请注明出处。原文链接是:3359 towards data science . com/lazy-predict-fit-and-evaluate-all-the-models-from-sci kit-learn-with-a-。


本文来自网络,不代表「专升本要什么条件_专升本要几年_成人高考专升本_山东专升本信息网」立场,转载请注明出处:http://www.sdzsb8.cn/zsxx/29426.html

数据集的使用(数据集的使用正确的是)的相关文章

  • 会计学硕士院校排名(最好的会计学校排名)

    会计学硕士院校排名(最好的会计学校排名):1、2022-2023会计学考研学校排名:会计学专业属于工商管理学科下的一个二级学科,本专业培养具备财务、管理、经济、法律等方面的知识和能力,具有分析和解决财务、金融问题的基本

    问答
  • 历史上年龄最小的皇帝,在位19年,13岁继位,年仅32岁

    历史上年龄最小的皇帝,在位19年,13岁继位,年仅32岁:光武帝→刘秀,在位 32 年,宛城起兵,在昆阳以少胜多打败王莽,建立东汉,公元 57 年病逝,终年 63 岁汉明帝→刘庄,在位 18 年 ,10 岁时就通晓了 《 春秋 》, 在位期间人口暴增,

    百科
  • 学生平板电脑排行榜「适合学生用的平板电脑十大排名」

    学生平板电脑排行榜「适合学生用的平板电脑十大排名」:大家好,乐天来为大家解答以下问题,十款值得买的学生平板电脑排行榜,儿童平板电脑推荐很多人还不知道,现在让我们一起来看看吧! 1、优学... 大家好,乐天来为大家...1小米平板4Plus小米

    招生学校
  • 去英国读研需要什么条件「出国留学门槛最低的国家」

    去英国读研需要什么条件「出国留学门槛最低的国家」:去英国读研需要哪些条件 近年来,由于各种原因,在美国学习的中国学生人数逐渐减少。 然而,与英国相反,英国也是一个留学大国,国际学生的数量却在不断上升。 毕竟...2022年研究生考试

    政策
  • 交大是学什么的「交大为什么叫交大」

    交大是学什么的「交大为什么叫交大」:揭秘:为什么上交大与西交大门楣上都只写交通大学出国留学网高考网为大家提供揭秘:为什么上交大与西交大门楣上都只写交通大学,更多高考资讯请关注我们网站的更新...国内不少城市

    政策
  • 端午节祝福的话语,句句暖人心(端午节的美好祝愿)

    端午节祝福的话语,句句暖人心(端午节的美好祝愿):1、端午节祝福的话语:1、端午到,尝粽忙,尝个枣粽香甜溢,祝愿生活多甜蜜,尝个肉粽满口香,祝愿家庭福满多,尝个豆粽有滋味,祝愿爱情多趣味。2、端午节祝愿生活如粽子多滋

    问答
  • 怎么测试iq「怎么测试自己的iq多少」

    怎么测试iq「怎么测试自己的iq多少」:韦氏智力量表 目前国际上最通用的智力测试就是韦氏智力量表,那么通过这个量表怎么测试自己的iq呢?从1939年开发出来就逐渐成为了使用率最高的智力...在中国,我们一般认为IQ就是

    招生学校
  • 58同城的招聘信息看到的厦门出海捕鱼工两万一个月,是不是真的,是骗人的吗?(厦门招聘网58同城)

    58同城的招聘信息看到的厦门出海捕鱼工两万一个月,是不是真的,是骗人的吗?(厦门招聘网58同城):1、您好,58同城是提供用户免费发布信息的平台,我们有专门的工作人员,每天都在努力审核全国用户发布的海量信息,建议您选择已经通过营业执照认证的公司。2、用人单位招聘时,

    热讯
  • 对于高考的复读生,在高考当中有什么限制?

    对于高考的复读生,在高考当中有什么限制?:高考复读生是高考众多群体当中一个不容忽视的重要群体,因为每一年的高考总会有落榜生,他们这些考生都想复读生参加高考有什么限制?着通过复读一年来考取更好的大学。除了落

    百科
网站公告