快速入门¶
本快速入门提供了使用 Amazon Web Services (AWS) Elastic Compute Cloud (EC2) 进行集群管理的 Anaconda 演练。本快速入门中涵盖的步骤包括在 Amazon EC2 上定义和启动基于云的集群、管理集群节点上的 conda 包以及安装插件。
安装¶
按照安装页面上的说明在本地机器上安装用于集群管理的 Anaconda。
创建提供者¶
一个示例提供程序文件(如下所示)包含在用于集群管理的 Anaconda 的新安装中,并位于该
~/.acluster/providers.yaml
文件中。
aws_east:
cloud_provider: ec2
keyname: my-private-key
location: us-east-1
private_key: ~/.ssh/my-private-key.pem
secret_id: AKIAXXXXXX
secret_key: XXXXXXXXXX
编辑此文件并用您的信息替换设置和凭据。
有关提供程序设置(包括安全组)的更多详细信息,请参阅提供程序设置页面。
您可以使用以下命令列出提供者:
$ acluster list providers
创建个人资料¶
用于集群管理的 Anaconda 的新安装中包含一个示例配置文件,位于该~/.acluster/profiles.d/
目录中。命名的示例配置文件aws_profile_sample
如下所示:
name: aws_profile_sample
provider: aws_east
num_nodes: 4
node_id: ami-d05e75b8 # Ubuntu 14.04, us-east-1 region
node_type: m3.large
user: ubuntu
您可以使用此配置文件创建基于 Ubuntu 14.04 的 4 节点集群。
有关配置文件设置的更多详细信息,请参阅配置文件设置页面。
您可以使用以下命令列出配置文件:
$ acluster list profiles
创建集群¶
定义提供程序和配置文件后,您可以使用以下命令创建集群:
$ acluster create demo_cluster --profile aws_profile_sample
这将在 Amazon EC2 上创建您的新集群并预置集群节点,这通常需要 5 到 10 分钟。随着任务和初始化步骤的完成,您将看到更新。
安装 conda 包¶
现在您已经运行了一个集群,您可以使用该命令安装 conda 包
。该命令可以添加到大多数命令之前。acluster conda
acluster
conda
要在所有集群节点上安装 numpy、scipy 和 pandas,请使用以下命令:
$ acluster conda install numpy scipy pandas
注意:有关远程 conda 命令的完整列表,请参阅Conda 管理页面。
安装插件¶
用于集群管理的 Anaconda 支持多个插件,例如 Apache Spark、Hadoop 分布式文件系统 (HDFS)、Jupyter Notebook 等。这些插件可以使用命令安装在集群上。acluster install
例如,可以使用以下命令在集群上安装 IPython Notebook:
$ acluster install notebook
该笔记本将在. 您可以使用以下命令在浏览器中打开其中许多应用程序的相应 URL :http://{{ HEAD_NODE_IP }}:8888
acluster open
$ acluster open notebook
运行该命令以查看支持的应用程序的完整列表。acluster open
更多信息¶
有关用例和示例脚本的更多示例用例,请参阅Python with Spark How-tos页面。