您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息

这可能是数据科学今年最好的20个Python库

2023/3/5 6:50:30发布66次查看
来源 | ai科技大本营(公众号id:rgznai100)
python在解决数据科学任务和挑战方面继续处于领先地位。去年,我们曾发表一篇博客文章 top 15 python libraries for data science in 2017,概述了当时业已证明最有帮助的python库。今年,我们扩展了这个清单,增加了新的 python 库,并重新审视了去年已经讨论过的 python 库,重点关注了这一年来的更新。
我们的选择实际上包含了 20 多个库,因为其中一些库是相互替代的,可以解决相同的问题。因此,我们将它们放在同一个分组。
▌核心库和统计数据
1. numpy (commits: 17911, contributors: 641)
官网:
matplotlib 是一个用于创建二维图和图形的底层库。藉由它的帮助,你可以构建各种不同的图标,从直方图和散点图到费笛卡尔坐标图。此外,有许多流行的绘图库被设计为与matplotlib结合使用。
6. seaborn (commits: 2044, contributors: 83)
官网:

随着越来越多的用例需要花费大量的精力和时间,深度学习问题变得越来越重要。然而,使用像 apache spark 这样的分布式计算系统,处理如此多的数据要容易得多,这再次扩展了深入学习的可能性。因此,dist-keras、elephas 和 spark-deep-learning 都在迅速流行和发展,而且很难挑出一个库,因为它们都是为解决共同的任务而设计的。这些包允许你在 apache spark 的帮助下直接训练基于 keras 库的神经网络。spark-deep-learning 还提供了使用 python 神经网络创建管道的工具。
▌自然语言处理
17. nltk (commits: 13041, contributors: 236)
官网:https://nltk.org/
nltk 是一组库,一个用于自然语言处理的完整平台。在 nltk 的帮助下,你可以以各种方式处理和分析文本,对文本进行标记和标记,提取信息等。nltk 也用于原型设计和建立研究系统。
18. spacy (commits: 8623, contributors: 215)
官网:https://spacy.io/
spacy 是一个具有优秀示例、api 文档和演示应用程序的自然语言处理库。这个库是用 cython 语言编写的,cython 是 python 的 c 扩展。它支持近 30 种语言,提供了简单的深度学习集成,保证了健壮性和高准确率。spacy 的另一个重要特性是专为整个文档处理设计的体系结构,无须将文档分解成短语。
19. gensim (commits: 3603, contributors: 273)
官网:https://radimrehurek/gensim/
gensim 是一个用于健壮语义分析、主题建模和向量空间建模的 python 库,构建在numpy和scipy之上。它提供了流行的nlp算法的实现,如 word2vec。尽管 gensim 有自己的 models.wrappers.fasttext实现,但 fasttext 库也可以用来高效学习词语表示。
▌数据采集
20. scrapy (commits: 6625, contributors: 281)
官网:https://scrapy.org/
scrapy 是一个用来创建网络爬虫,扫描网页和收集结构化数据的库。此外,scrapy 可以从 api 中提取数据。由于该库的可扩展性和可移植性,使得它用起来非常方便。
▌结论
本文上述所列就是我们在 2018 年为数据科学领域中丰富的 python 库集合。与上一年相比,一些新的现代库越来越受欢迎,而那些已经成为经典的数据科学任务的库也在不断改进。
下表显示了 github 活动的详细统计数据:
原文链接:https://activewizards/blog/top-20-python-libraries-for-data-science-in-2018/
——【完】——
- datacastle -
该用户其它信息

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录 Product