Python生态系统正在不断成长,并可能成为机器学习的统治平台。
采用Python进行机器学习的主要原因是:它是一种通用编程语言,这意味着它可以用于研究、开发以及生产过程中。
在本文中,您将了解Python的机器学习生态系统。
上图由Stewart Black拍摄,版权所有。
Python是一种通用的解释型编程语言。由于语言的重心在于可读性,所以可以很容易地学习和使用它。
Python的哲学体现在Python之禅(Zen of Python)中,其中包括这样的短语:
你可以在你的Python环境中看到完整的Python之禅,只要输入:
import this
Python是一种普遍流行的语言,一直位于StackOverflow编程语言调查的前10之列(例如2015年的调查结果)。它一种动态的语言,并且非常适合交互式开发和大型应用程序的快速原型开发。
由于优秀的库支持,并且它本身是一种通用编程语言(与R或Matlab不同),因此它也被广泛用于机器学习和数据科学领域。例如,2011年Kaggle平台调查结果和2015年KDD Nuggets工具调查结果。
这是一个简单但是非常重要的考虑因素。
这意味着您可以使用同样的编程语言来进行您的研究和开发(确定要使用什么模型)。这大大简化了从开发到上线的过渡。
SciPy是Python库的一个生态系统,它用于数学,科学和工程领域。它是Python的附加组件,您可以在机器学习领域使用它。
SciPy生态系统由以下与机器学习相关的核心模块组成:
为了在Python中使用机器学习,您必须安装并熟悉SciPy。特别是以下几个方面:
您可以在帖子中了解更多关于pandas的信息。用pandas准备机器学习的数据 和使用pandas进行快速的脏数据分析。
scikit-learn是用于开发和实践机器学习的python库。
它建立在SciPy生态系统的基础之上。“scikit” 这个名字表明它是一个SciPy插件或工具包。您可以查看SciKits完整列表。
scikit-learn的重点是用于分类、回归,聚类等的机器学习算法。它还提供相关的工具,如模型评估,参数调整和数据预处理。
同Python和SciPy一样,scikit-learn是开放源代码的并且在BSD许可证下商业软件可以使用它。这意味着您可以学习机器学习,开发模型,并将它们放入具有相同生态系统和代码的操作中。这是使用scikit-learn的强有力理由。
您可以在后面的scikit-learn简介中了解更多关于scikit-learn的内容。
有多种方法可以安装Python的机器学习生态系统。在本节中,我将介绍其中一种安装方法。
第一步是安装Python。我更喜欢使用和推荐Python2.7。
安装方式同您的平台有关。有关说明,请参阅Python入门指南中的下载Python。
安装完成后,您可以确认是否安装成功。打开命令行并输入:
python --version
看到类似下面的回应,表明安装成功:
Python 2.7.11
有很多方法可以安装SciPy。例如,两种常用的方法是使用你的平台上的包管理(例如,在RedHat上的yum或在macOS上的macports)或者Python的包管理工具,例如pip。
SciPy的文档非常出色,在安装SciPy上涵盖了多个不同平台的安装说明。
安装SciPy时,请确保已经安装以下软件包:
安装完成后,您可以确认安装是否成功。在命令行中输入“ python” 来打开python交互式环境,然后键入并运行下面的python代码来打印已安装库的版本。
# scipy
import scipy
print('scipy: %s' % scipy.__version__)
# numpy
import numpy
print('numpy: %s' % numpy.__version__)
# matplotlib
import matplotlib
print('matplotlib: %s' % matplotlib.__version__)
# pandas
import pandas
print('pandas: %s' % pandas.__version__)
当我发布本文时,在我的工作站上可以看到以下输出。
scipy: 0.17.0
numpy: 1.10.4
matplotlib: 1.5.1
pandas: 0.17.1
如果您遇到错误,可能需要查阅您平台的相关文档。
我建议你使用同安装SciPy一样的方法来安装scikit-learn。
这是安装scikit-learn的说明,但是它们仅限于使用Python pip(https://en.wikipedia.org/wiki/Pip_(package_manager%2529%29) 和conda软件包管理器。
像SciPy一样,您可以确认scikit-learn是否已成功安装。启动您的Python交互式环境键入并运行以下代码。
# scikit-learn
import sklearn
print('sklearn: %s' % sklearn.__version__)
它将打印安装的scikit-learn库的版本。在我的工作站上,可以看到以下输出:
sklearn: 0.17.1
如果您对在您的机器上安装软件没有信心,那么为您提供更简单的一种方法。
有一个叫做Anaconda的发行版,你可以免费下载和安装。
它支持Microsoft Windows,Mac OS X和Linux三大主要平台。
它包括Python,SciPy和scikit-learn,任何您在Python环境下学习,实践和使用机器学习所需要的东西。
在本文中,我介绍了Python的机器学习生态系统。
你可以了解到:
您还学习了如何在工作站上安装用于机器学习的Python生态系统。