将 Anaconda 与 Cloudera CDH 一起使用

注意:此页面已被取代,请参阅https://docs.continuum.io/anaconda-scale/cloudera-cdh

在具有Cloudera CDH的现有集群上使用 Anaconda 有两种方法 ,Cloudera 的发行版包括 Apache Hadoop:1)用于 Cloudera CDHAnaconda 包,以及 2) 用于集群管理的 Anaconda。下面的说明描述了如何在 CDH 集群上卸载 Anaconda 包并过渡到 Anaconda 进行集群管理。

卸载 Anaconda 包

如果在 CDH 集群上安装了 Anaconda Parcel,请使用以下步骤卸载 Parcel。否则,您可以跳到下一部分。

  1. 在 Cloudera Manager 管理控制台中,单击顶部导航栏中的 Parcels 指示器。
  2. 单击DeactivateAnaconda 地块列表右侧的按钮。
  3. 单击OK停用提示以停用 Anaconda 包并重新启动 Spark 和相关服务。
  4. 单击 Anaconda 地块列表右侧的箭头并选择 ,这将提示确认对话框。Remove From Hosts
  5. Anaconda 地块已从集群节点中删除。

有关管理 Cloudera 包的更多信息,请参阅 Cloudera 文档

使用 Anaconda 进行集群管理

用于集群管理的 Anaconda 提供了额外的功能,包括管理多个 conda 环境和包(包括 Python 和 R)以及现有 CDH 集群的能力。

  1. 使用 Anaconda 配置节点以使用Bare-metal Cluster Setup 说明进行集群管理 。

  2. 在此过程中,您将创建描述集群的配置文件和提供程序。

  3. 使用以下命令配置集群,替换cluster-cdh 为集群profile-cdh名称和配置文件名称:

    $ acluster create cluster-cdh -p profile-cdh
    
  4. 您可以提交 Spark 作业以及PYSPARK_PYTHON引用 Anaconda 位置的环境变量,例如:

    $ PYSPARK_PYTHON=/opt/anaconda/bin/python spark-submit pyspark_script.py