机器学习模型处理不了原始文本。无论是线性回归、XGBoost还是神经网络,遇到 "red"、"medium"、"CA" 这类分类变量都没法直接处理。所以必须把它们转成数字这个过程就是分类编码。 大家入门时肯定都学过独热编码或序数编码,但编码方法其实非常多。目标编码 ...
大家好,我是早起。 作为使用 Python 工作的数据科学家。每天我们都会启动多个新的Jupyter笔记本,并且在会用到多个不同的库,例如pandas、matplotlib等。 但是,在开始实际工作之前,我们总是需要为每一个 Notebook 写一堆的导入代码,虽然这不困难,但是却很繁琐 ...
作为使用 Python 工作的数据科学家。每天我们都会启动多个新的Jupyter笔记本,并且在会用到多个不同的库,例如pandas、matplotlib等。 但是,在开始实际工作之前,我们总是需要为每一个 Notebook 写一堆的导入代码,虽然这不困难,但是却很繁琐,有时还需要查找 ...
说明:如果访问 GitHub 比较慢的话,可以关注我的知乎账号(Python-Jack),上面的“从零开始学Python”专栏(对应本项目前 20 天的内容)比较适合初学者,其他的专栏如“数据思维和统计思维”、“基于Python的数据分析”、“说走就走的AI之旅”等也在持续更新中 ...
Scikit-learn 更新了,新特性主要包括选择超参数更快的方法、ICE 图、直方图 boosting 改进、OneHotEncoder 支持缺失值等。 自 2007 年发布以来,Scikit-learn 已经成为 Python 领域非常重要的机器学习库,支持分类、回归、降维和聚类四大机器学习算法,还包括了特征提取 ...
CYaRon 建立在 Python 上; Python 语言特性简洁明了,使用 Python 写测试数据生成器和对拍器,无论是否使用 CYaRon,比编写 C++ 事半功倍。借助 CYaRon 更是如虎添翼; Python 学习成本很低,只要您熟练掌握 C++/Pascal,您只要花30分钟看完本文并完成实验,即可初步掌握 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果