文章来源:GitHub
计算机视觉
-
SimpleCV:开源计算机视觉框架,可以访问如OpenCV等高性能计算机视觉库使用Python编写,可以在Mac、Windows以及Ubuntu上运行。(http://simplecv.org/)
自然语言处理
-
NLTK:一个领先的平台,用来编写处理人类语言数据的Python程序。(http://www.nltk.org/)
-
Pattern:Python可用的web挖掘模块,包括自然语言处理、机器学习等工具。(http://www.clips.ua.ac.be/pattern)
-
TextBlob:为普通自然语言处理任务提供一致的API,以NLTK和Pattern为基础,并和两者都能很好兼容。(http://textblob.readthedocs.io/en/dev/)
-
jieba:中文断词工具。(https://github.com/fxsjy/jieba#jieba-1)
-
SnowNLP:中文文本处理库。(https://github.com/isnowfy/snownlp)
-
loso:另一个中文断词库。(https://github.com/fangpenlin/loso)
-
genius:基于条件随机域的中文断词库。(https://github.com/duanhongyi/genius)
-
nut:自然语言理解工具包。(https://github.com/pprett/nut)
通用机器学习
-
Bayesian Methods for Hackers:Python语言概率规划的电子书。(https://github.com/CamDavidsonPilon/%E3%80%82Probabilistic-Programming-and-Bayesian-Methods-for-Hackers)
-
MLlib in Apache Spark:Spark下的分布式机器学习库。(http://spark.apache.org/docs/latest/mllib-guide.html)
-
scikit-learn:基于SciPy的机器学习模块。(http://scikit-learn.github.io/stable)
-
graphlab-create:包含多种机器学习模块的库(回归、聚类、推荐系统、图分析等),基于可以磁盘存储DataFrame(http://graphlab.com/products/create/docs/)
-
BigML:连接外部服务器的库。(https://bigml.com/)
-
pattern:Python的web挖掘模块。(https://github.com/clips/pattern)
-
NuPIC:Numenta公司的智能计算平台。(https://github.com/numenta/nupic)
-
Pylearn2:基于Theano的机器学习库。(https://github.com/lisa-lab/pylearn2)
-
hebel:Python编写的使用GPU加速的深度学习库。(https://github.com/hannes-brt/hebel)
-
gensim:主题建模工具。(https://github.com/RaRe-Technologies/gensim)
-
PyBrain:另一个机器学习库。(https://github.com/pybrain/pybrain)
-
Crab:可扩展的、快速推荐引擎。(https://github.com/muricoca/crab)
-
python-recsys:Python实现的推荐系统。(https://github.com/ocelma/python-recsys)
-
thinking bayes:关于贝叶斯分析的书籍。(https://github.com/AllenDowney/ThinkBayes)
-
Restricted Boltzmann Machines:Python实现的受限波尔兹曼机。(https://github.com/echen/restricted-boltzmann-machines)
-
Bolt:在线学习工具箱。(https://github.com/pprett/bolt)
-
CoverTree:cover tree的Python实现,scipy.spatial.kdtree便捷的替代。(https://github.com/patvarilly/CoverTree)
-
nilearn:Python实现的神经影像学机器学习库。(https://github.com/nilearn/nilearn)
-
Shogun:机器学习工具箱。(https://github.com/shogun-toolbox/shogun)
-
Pyevolve:遗传算法框架。(https://github.com/perone/Pyevolve)
-
Caffe:考虑了代码清洁、可读性及速度的深度学习框架。(http://caffe.berkeleyvision.org/)
-
breze:深度及递归神经网络的程序库,基于Theano。(https://github.com/breze-no-salt/breze)
数据分析/数据可视化
-
SciPy:基于Python的数学、科学、工程开源软件生态系统。(https://www.scipy.org/)
-
NumPy:Python科学计算基础包。(http://www.numpy.org/)
-
Numba:Python的低级虚拟机JIT编译器,Cython and NumPy的开发者编写,供科学计算使用。(http://numba.pydata.org/)
-
NetworkX:为复杂网络使用的高效软件。(https://networkx.github.io/)
-
Pandas:这个库提供了高性能、易用的数据结构及数据分析工具。(http://pandas.pydata.org/)
-
Open Mining:Python中的商业智能工具(Pandas web接口)。(https://github.com/mining/mining)
-
PyMC:MCMC采样工具包。(https://github.com/pymc-devs/pymc)
-
zipline:Python的算法交易库。(https://github.com/quantopian/zipline)
-
PyDy:全名Python Dynamics,协助基于NumPy、SciPy、IPython以及 matplotlib的动态建模工作流。(http://www.pydy.org/)
-
SymPy:符号数学Python库。(https://github.com/sympy/sympy)
-
statsmodels:Python的统计建模及计量经济学库。(https://github.com/statsmodels/statsmodels)
-
astropy:Python天文学程序库,社区协作编写。(http://www.astropy.org/)
-
matplotlib:Python的2D绘图库。(http://matplotlib.org/)
-
bokeh:Python的交互式Web绘图库。(https://github.com/bokeh/bokeh)
-
plotly:Python and matplotlib的协作web绘图库。(https://plot.ly/python/)
-
vincent:将Python数据结构转换为Vega可视化语法。(https://github.com/wrobstory/vincent)
-
d3py:Python的绘图库,基于D3.js。(https://github.com/mikedewar/d3py)
-
ggplot:和R语言里的ggplot2提供同样的API。(https://github.com/yhat/ggpy)
-
Kartograph.py:Python中渲染SVG图的库,效果漂亮。(https://github.com/kartograph/kartograph.py)
-
pygal:Python下的SVG图表生成器。(http://pygal.org/en/stable/)
-
pycascading(https://github.com/twitter/pycascading)
杂项脚本/iPython笔记/代码库
-
pattern_classification:(https://github.com/rasbt/pattern_classification)
-
thinking stats 2:(https://github.com/Wavelets/ThinkStats2)
-
hyperopt:(https://github.com/hyperopt/hyperopt-sklearn)
-
numpic:(https://github.com/numenta/nupic)
-
2012-paper-diginorm:(https://github.com/dib-lab/2012-paper-diginorm)
-
ipython-notebooks:(https://github.com/ogrisel/notebooks)
-
decision-weights:(https://github.com/CamDavidsonPilon/decision-weights)
-
Sarah Palin LDA:Sarah Palin关于主题建模的电邮。(https://github.com/Wavelets/sarah-palin-lda)
-
Diffusion Segmentation:基于扩散方法的图像分割算法集合。(https://github.com/Wavelets/diffusion-segmentation)
-
Scipy Tutorials:SciPy教程,已过时,请查看scipy-lecture-notes。(https://github.com/Wavelets/scipy-tutorials)
-
Crab:Python的推荐引擎库。(https://github.com/marcelcaraciolo/crab)
-
BayesPy:Python中的贝叶斯推断工具。(https://github.com/maxsklar/BayesPy)
-
scikit-learn tutorials:scikit-learn学习笔记系列。(https://github.com/GaelVaroquaux/scikit-learn-tutorial)
-
sentiment-analyzer:推特情绪分析器。(https://github.com/madhusudancs/sentiment-analyzer)
-
group-lasso:坐标下降算法实验,应用于(稀疏)群套索模型。(https://github.com/fabianp/group_lasso)
-
mne-python-notebooks:使用 mne-python进行EEG/MEG数据处理的IPython笔记。(https://github.com/mne-tools/mne-python-notebooks)
-
pandas cookbook:使用Python pandas库的方法书。(https://github.com/jvns/pandas-cookbook)
-
climin:机器学习的优化程序库,用Python实现了梯度下降、LBFGS、rmsprop、adadelta 等算法。(https://github.com/BRML/climin)
Kaggle竞赛源代码
-
wiki challange:Kaggle上一个维基预测挑战赛 Dell Zhang解法的实现
(https://github.com/hammer/wikichallenge)
-
kaggle insults:Kaggle上”从社交媒体评论中检测辱骂“竞赛提交的代码
(https://github.com/amueller/kaggle_insults)
-
kaggle_acquire-valued-shoppers-challenge:Kaggle预测回头客挑战赛的代码
(https://github.com/MLWave/%E3%80%82kaggle_acquire-valued-shoppers-challenge)
-
kaggle-cifar:Kaggle上CIFAR-10 竞赛的代码,使用cuda-convnet
(https://github.com/zygmuntz/kaggle-cifar)
-
kaggle-blackbox:Kaggle上blackbox赛代码,关于深度学习
(https://github.com/zygmuntz/kaggle-blackbox)
-
kaggle-accelerometer:Kaggle上加速度计数据识别用户竞赛的代码。
(https://github.com/zygmuntz/kaggle-accelerometer)
-
kaggle-advertised-salaries:Kaggle上用广告预测工资竞赛的代码
(https://github.com/zygmuntz/kaggle-advertised-salaries)
-
kaggle amazon:Kaggle上给定员工角色预测其访问需求竞赛的代码
(https://github.com/zygmuntz/kaggle-amazon)
-
kaggle-bestbuy_big:Kaggle上根据bestbuy用户查询预测点击商品竞赛的代码(大数据版)。
(https://github.com/zygmuntz/kaggle-bestbuy_big)
-
kaggle-bestbuy_small:Kaggle上根据bestbuy用户查询预测点击商品竞赛的代码(小数据版)。
(https://github.com/zygmuntz/kaggle-bestbuy_small)
-
Kaggle Dogs vs. Cats:Kaggle上从图片中识别猫和狗竞赛的代码。
(https://github.com/kastnerkyle/kaggle-dogs-vs-cats)
-
Kaggle Galaxy Challenge:Kaggle上遥远星系形态分类竞赛的优胜代码。
(https://github.com/benanne/kaggle-galaxies)
-
Kaggle Gender:Kaggle竞赛,从笔迹区分性别。
(https://github.com/zygmuntz/kaggle-gender)
-
Kaggle Merck:Kaggle上预测药物分子活性竞赛的代码(默克制药赞助)
(https://github.com/zygmuntz/kaggle-merck)
-
Kaggle Stackoverflow:Kaggle上 预测StackOverflow网站问题是否会被关闭竞赛的代码(https://github.com/zygmuntz/kaggle-stackoverflow)
-
wine-quality:预测红酒质量
(https://github.com/zygmuntz/wine-quality)