快速入门

本快速入门提供了使用 Amazon Web Services (AWS) Elastic Compute Cloud (EC2) 进行集群管理的 Anaconda 演练。本快速入门中涵盖的步骤包括在 Amazon EC2 上定义和启动基于云的集群、管理集群节点上的 conda 包以及安装插件。

安装

按照安装页面上的说明在本地机器上安装用于集群管理的 Anaconda。

创建提供者

一个示例提供程序文件(如下所示)包含在用于集群管理的 Anaconda 的新安装中,并位于该 ~/.acluster/providers.yaml文件中。

aws_east:
  cloud_provider: ec2
  keyname: my-private-key
  location: us-east-1
  private_key: ~/.ssh/my-private-key.pem
  secret_id: AKIAXXXXXX
  secret_key: XXXXXXXXXX

编辑此文件并用您的信息替换设置和凭据。

有关提供程序设置(包括安全组)的更多详细信息,请参阅提供程序设置页面。

您可以使用以下命令列出提供者:

$ acluster list providers

创建个人资料

用于集群管理的 Anaconda 的新安装中包含一个示例配置文件,位于该~/.acluster/profiles.d/目录中。命名的示例配置文件aws_profile_sample如下所示:

name: aws_profile_sample
provider: aws_east
num_nodes: 4
node_id: ami-d05e75b8  # Ubuntu 14.04, us-east-1 region
node_type: m3.large
user: ubuntu

您可以使用此配置文件创建基于 Ubuntu 14.04 的 4 节点集群。

有关配置文件设置的更多详细信息,请参阅配置文件设置页面。

您可以使用以下命令列出配置文件:

$ acluster list profiles

创建集群

定义提供程序和配置文件后,您可以使用以下命令创建集群:

$ acluster create demo_cluster --profile aws_profile_sample

这将在 Amazon EC2 上创建您的新集群并预置集群节点,这通常需要 5 到 10 分钟。随着任务和初始化步骤的完成,您将看到更新。

安装 conda 包

现在您已经运行了一个集群,您可以使用该命令安装 conda 包 。该命令可以添加到大多数命令之前。acluster condaaclusterconda

要在所有集群节点上安装 numpy、scipy 和 pandas,请使用以下命令:

$ acluster conda install numpy scipy pandas

注意:有关远程 conda 命令的完整列表,请参阅Conda 管理页面。

安装插件

用于集群管理的 Anaconda 支持多个插件,例如 Apache Spark、Hadoop 分布式文件系统 (HDFS)、Jupyter Notebook 等。这些插件可以使用命令安装在集群上。acluster install

例如,可以使用以下命令在集群上安装 IPython Notebook:

$ acluster install notebook

该笔记本将在. 您可以使用以下命令在浏览器中打开其中许多应用程序的相应 URL :http://{{ HEAD_NODE_IP }}:8888acluster open

$ acluster open notebook

运行该命令以查看支持的应用程序的完整列表。acluster open

销毁集群

完成后,可以使用以下命令销毁集群并终止其中的所有实例。它会在销毁集群之前提示确认。

$ acluster destroy demo_cluster

更多信息

有关用例和示例脚本的更多示例用例,请参阅Python with Spark How-tos页面。