将 Anaconda 与 Cloudera CDH 一起使用¶
注意:此页面已被取代,请参阅https://docs.continuum.io/anaconda-scale/cloudera-cdh
在具有Cloudera CDH的现有集群上使用 Anaconda 有两种方法 ,Cloudera 的发行版包括 Apache Hadoop:1)用于 Cloudera CDH的Anaconda 包,以及 2) 用于集群管理的 Anaconda。下面的说明描述了如何在 CDH 集群上卸载 Anaconda 包并过渡到 Anaconda 进行集群管理。
卸载 Anaconda 包¶
如果在 CDH 集群上安装了 Anaconda Parcel,请使用以下步骤卸载 Parcel。否则,您可以跳到下一部分。
- 在 Cloudera Manager 管理控制台中,单击顶部导航栏中的 Parcels 指示器。
- 单击
Deactivate
Anaconda 地块列表右侧的按钮。 - 单击
OK
停用提示以停用 Anaconda 包并重新启动 Spark 和相关服务。 - 单击 Anaconda 地块列表右侧的箭头并选择
,这将提示确认对话框。
Remove From Hosts
- Anaconda 地块已从集群节点中删除。
有关管理 Cloudera 包的更多信息,请参阅 Cloudera 文档。
使用 Anaconda 进行集群管理¶
用于集群管理的 Anaconda 提供了额外的功能,包括管理多个 conda 环境和包(包括 Python 和 R)以及现有 CDH 集群的能力。
使用 Anaconda 配置节点以使用Bare-metal Cluster Setup 说明进行集群管理 。
在此过程中,您将创建描述集群的配置文件和提供程序。
使用以下命令配置集群,替换
cluster-cdh
为集群profile-cdh
名称和配置文件名称:$ acluster create cluster-cdh -p profile-cdh
您可以提交 Spark 作业以及
PYSPARK_PYTHON
引用 Anaconda 位置的环境变量,例如:$ PYSPARK_PYTHON=/opt/anaconda/bin/python spark-submit pyspark_script.py