Python是一种很棒的编程语言事实上,它还是世界上发展最快的编程语言之一它一次又一次证明了它在数据科学职位中的实用性。整个Python及其库的生态系统使其成为全世界用戶(初学者和高级)的合适选择
在本文中,我们将介绍一些用于数据科学方面的Python库它们并不像pandas、scikit-learn 和 matplotlib那么知名,但一样非常实用的库
提取数据,尤其是从网络上提取数据是数据科学家的主要任务之一。Wget是一个免费的实用程序用于从Web上进行非交互式文件下载。它支持HTTPHTTPS和FTP协议,以及通过HTTP代理进行检索由于它是非交互式的,即使用户没有登录也可以在后台运行因此,如果你需要下载一个网站或页面Φ的所有图片时wget 就可以帮到你
如果你还在苦恼Python中时间日期的处理,那么你需要Pendulum它是一个Python包,用于简化datetime操作它是Python原生类的一个临时替玳。
大多数分类算法在每个类的样本数量几乎都是一样的情况下是最有效的但实际工作中大多数是不平衡的数据集,这些数据集对机器學习算法的学习阶段和后续预测都可能有影响幸运的是,创imbalance -learn库可以解决这个问题它与scikit-learn兼容,是scikit- learning -contrib项目的一部分下次遇到不平衡的数据集的情况,请别忘了它
在自然语言处理(NLP)任务中清理文本数据通常需要替换关键字或从句子中提取关键字。通常这样的操作可以用正则表达式来完成,但是如果要搜索的词汇量达到数千那么这些操作就会变得很繁琐。
Python的FlashText模块基于FlashText算法为这种情况提供了合适的替代方案。FlashText最棒的地方是它的运行与你的搜索量无关。
这个名称听起来很奇怪但是在字符串匹配方面,FuzzyWuzzy是一个非常有用的库它可以方便地实現字符串匹配率等操作。它还可以方便地匹配保存在不同数据库中的记录
时间序列分析是机器学习中最常见的问题之一。PyFlux是Python中的一个开源库它是为处理时间序列问题而构建的。该库拥有一系列很优秀的现代时间序列模型诸如ARIMA、GARCH和VAR模型等。简而言之PyFlux提供了一种时间序列建模的概率方法。
数据科学很重要的一部分就是交流结果可视化结果显示可以给你提供一个巨大的优势。IPyvolume是一个Python库用于可视化Jupyter笔记夲中的3D容量和符号(例如3D散点图),只需少量的配置