投稿问答最小化  关闭

万维书刊APP下载

38个Python数据科学顶级库

2022/10/9 17:31:28  阅读:315 发布者:

来源:大邓和他的Python

这篇文章中包括的类别,我们认为这些类别考虑了通用的数据科学库,即那些可能被数据科学领域的从业人员用于广义的,非神经网络的,非研究性工作的库:

数据-用于数据管理,处理和其他处理的库

数学-虽然许多库都执行数学任务,但这个小型库却专门这样做

机器学习-自我解释;不包括主要用于构建神经网络或用于自动化机器学习过程的库

自动化机器学习-主要用于自动执行与机器学习相关的过程的库

数据可视化-与建模,预处理等相反,主要提供与数据可视化相关的功能的库。

解释与探索-主要用于探索和解释模型或数据的库

请注意,以下按类型表示了每个库,并按星级和贡献者对其进行了绘制,其符号大小反映了该库在Github上的相对提交次数。

1:用于数据科学,数据可视化和机器学习的顶级Python库,按星级和贡献者数绘制;相对大小按贡献者数量

数据

1. Apache Spark

https://github.com/apache/spark

star27600,贡献:28197,贡献者:1638

Apache Spark-用于大规模数据处理的统一分析引擎

2.Pandas

https://github.com/pandas-dev/pandas

star26800,贡献:24300,贡献者:2126

Pandas是一个Python软件包,提供了快速,灵活和可表达的数据结构,旨在使使用“关系”或“标记”数据既简单又直观。它旨在成为在Python中进行实用,真实世界数据分析的基本高级构建块。

3.Dask

https://github.com/dask/dask

star7300,贡献:6149,贡献者:393

任务调度的并行计算

数学

4. Scipy

https://github.com/scipy/scipy

star7500,贡献:24247,贡献者:914

SciPy发音为“ Sigh Pie”是用于数学,科学和工程的开源软件。它包括用于统计,优化,积分,线性代数,傅立叶变换,信号和图像处理,ODE求解器等的模块。

5. Numpy

https://github.com/numpy/numpy

star1500,贡献:24266,提供者:1010

使用Python进行科学计算的基本软件包。

机器学习

6. Scikit-Learn

https://github.com/scikit-learn/scikit-learn

star42500,贡献:26162,贡献者:1881

Scikit-learn是一个基于SciPyPython机器学习模块,并以3条款BSD许可分发。

7. XGBoost

https://github.com/dmlc/xgboost

star19900,贡献:5015,贡献者:461

适用于PythonRJavaScalaC ++等的可扩展,便携式和分布式梯度增强GBDTGBRTGBM库。在单机,HadoopSparkFlinkDataFlow上运行

8. LightGBM

https://github.com/microsoft/LightGBM

star11600,贡献:2066,贡献者:172

基于决策树算法的快速,分布式,高性能梯度提升GBTGBDTGBRTGBMMART框架,用于排名,分类和许多其他机器学习任务。

9.Catboost

https://github.com/catboost/catboost

star5400,贡献:12936,贡献者:188

快速,可扩展,高性能的“决策树上的梯度提升”库,用于对PythonRJavaC ++进行排名,分类,回归和其他机器学习任务。支持在CPUGPU上进行计算。

10. Dlib

https://github.com/davisking/dlib

star9500,贡献:7868,贡献者:146

Dlib是一个现代的C ++工具箱,其中包含机器学习算法和工具,这些工具和工具可以用C ++创建复杂的软件来解决实际问题。可以通过dlib APIPython一起使用

11.Annoy

https://github.com/spotify/annoy

star7700,贡献:778,贡献者:53

C ++ / Python中的近似最近邻居已针对内存使用情况以及加载/保存到磁盘进行了优化

12.H20ai

https://github.com/h2oai/h2o-3

star500,贡献贡献:27894,贡献者:137

适用于更智能应用的开源快速可扩展机器学习平台:深度学习,梯度提升和XGBoost,随机森林,广义线性建模逻辑回归,弹性网,K均值,PCA,堆叠集成,自动机器学习AutoML等。

13. StatsModels

https://github.com/statsmodels/statsmodels star5600,承诺:13446,贡献者:247

StatsmodelsPython中的统计建模和计量经济学

14. mlpack

https://github.com/mlpack/mlpack

star3400,贡献:24575,贡献者:190

mlpack是一个直观,快速且灵活的C ++机器学习库,具有与其他语言的绑定

15.Pattern

https://github.com/clips/pattern

star7600,贡献:1434,贡献者:20

用于PythonWeb挖掘模块,具有用于抓取,自然语言处理,机器学习,网络分析和可视化的工具。

16.Prophet

https://github.com/facebook/prophet

star11500,贡献:595,贡献者:106

用于为具有多个季节性且线性或非线性增长的时间序列数据生成高质量预测的工具。

自动化机器学习

17. TPOT

https://github.com/EpistasisLab/tpot

star7500,贡献:2282,贡献者:66

一个Python自动化机器学习工具,可使用遗传编程来优化机器学习pipeline

18. auto-sklearnhttps://github.com/automl/auto-sklearn

star4100,贡献:2343,贡献者:52

auto-sklearn是一种自动化的机器学习工具包,是scikit-learn估计器的直接替代品。

19. Hyperopt-sklearn

https://github.com/hyperopt/hyperopt-sklearn

star1100,贡献:188,贡献者:18

Hyperopt-sklearnscikit-learn中机器学习算法中基于Hyperopt的模型选择。

20. SMAC-3

https://github.com/automl/SMAC3

star529,贡献:1882,贡献者:29

基于顺序模型的算法配置

21. scikit-optimizehttps://github.com/scikit-optimize/scikit-optimize

star1900,贡献:1540,贡献者:59

Scikit-Optimizeskopt是一个简单高效的库,可最大限度地减少非常昂贵且嘈杂的黑盒功能。它实现了几种基于顺序模型优化的方法。

22. Nevergrad

https://github.com/facebookresearch/nevergrad

star2700,贡献:663,贡献者:38

用于执行无梯度优化的Python工具箱

23.Optuna

https://github.com/optuna/optuna

star3500,贡献:7749,贡献者:97

Optuna是一个自动超参数优化软件框架,专门为机器学习而设计。

数据可视化

24. Apache Superset

https://github.com/apache/incubator-superset

star30300,贡献:5833,贡献者:492

Apache Superset是一个数据可视化和数据探索平台

25. Matplotlib

https://github.com/matplotlib/matplotlib

star12300,贡献:36716,贡献者:1002

Matplotlib是一个综合库,用于在Python中创建静态,动画和交互式可视化。

26.Plotly

https://github.com/plotly/plotly.py

star7900,贡献:4604,贡献者:137

Plotly.py是适用于Python的交互式,基于开源和基于浏览器的图形库

27. Seaborn

https://github.com/mwaskom/seaborn

star7700,贡献:2702,贡献者:126

Seaborn是基于matplotlibPython可视化库。它提供了用于绘制吸引人的统计图形的高级界面。

28.folium

https://github.com/python-visualization/folium

star4900,贡献:1443,贡献者:109

Folium建立在Python生态系统的数据处理能力和Leaflet.js库的映射能力之上。用Python处理数据,然后通过folium在可视化的Leaflet贴图中显示。

29. Bqplot

https://github.com/bqplot/bqplot

star2900,贡献:3178,贡献者:45

BqplotJupyter的二维可视化系统,基于图形语法的构造。

30. VisPy

https://github.com/vispy/vispy

star2500,贡献:6352,贡献者:117

VisPy是一个高性能的交互式2D / 3D数据可视化库。VisPy通过OpenGL库利用现代图形处理单元GPU的计算能力来显示非常大的数据集。

31. PyQtgraph

https://github.com/pyqtgraph/pyqtgraph

star2200,贡献:2200,贡献者:142

用于科学/工程应用的快速数据可视化和GUI工具

32.Bokeh

https://github.com/bokeh/bokeh

star1400,贡献:18726,贡献者:467

Bokeh是用于现代Web浏览器的交互式可视化库。它提供通用图形的优雅,简洁的构造,并在大型或流数据集上提供高性能的交互性。

33.Altair

https://github.com/altair-viz/altair

star600,贡献:3031,贡献者:106

Altair是用于Python的声明性统计可视化库。使用Altair,您可以花费更多时间来理解数据及其含义。

解释与探索

34. eli5https://github.com/TeamHG-Memex/eli5

star2200,贡献贡献:1198,贡献者:15

一个用于调试/检查机器学习分类器并解释其预测的库

35. LIMEh

ttps://github.com/marcotcr/lime star800,承诺:501,贡献者:41

Lime:解释任何机器学习分类器的预测

36. SHAP

https://github.com/slundberg/shap

star10400,贡献:1376,贡献者:96

一种博弈论方法,用于解释任何机器学习模型的输出

37. YellowBrick

https://github.com/DistrictDataLabs/yellowbrick

star300,贡献:825,贡献者:92

可视化分析和诊断工具,有助于机器学习模型的选择

38.pandas-profiling

https://github.com/pandas-profiling/pandas-profiling

star6200名,贡献:704名,贡献者:47

pandas DataFrame对象创建HTML分析报告

转自:“经管学苑”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com