Cloudera CDH

../../../../_images/cloudera.png

Cloudera 为企业客户提供基于 Apache Hadoop 的软件、支持和服务以及培训。他们的开源 Apache Hadoop 发行版 CDH(包括 Apache Hadoop 的 Cloudera 发行版)针对该技术的企业级部署。

在具有Cloudera CDH的现有集群上使用 Anaconda 有两种方法 ,Cloudera 的发行版包括 Apache Hadoop:

  • 将 Anaconda 包用于 Cloudera CDH。以下过程描述了如何使用 Cloudera Manager 在 CDH 集群上安装 Anaconda Parcel。Anaconda 包提供基于 Python 2.7 的 Anaconda 静态安装,可与集群上的 Python 和 PySpark 作业一起使用。
  • 使用 Anaconda Scale,它提供了额外的功能,包括管理多个 conda 环境和包的能力,包括 Python 和 R,以及现有的 CDH 集群。有关更多信息,请参阅将 Anaconda 与 Cloudera CDH 结合使用

请参阅博客文章自助开放数据科学:Cloudera 的自定义 Anaconda 包裹


安装 Anaconda 包

  1. 在 Cloudera Manager Admin Console 的顶部导航栏中,单击 Parcels 图标。

  2. 在宗地页面的右上角,单击编辑设置按钮。

  3. 在远程包裹存储库 URL 部分中,单击加号,然后为 Anaconda 包裹添加以下存储库 URL:

    https://repo.anaconda.com/pkgs/misc/parcels/
    
  4. 在页面顶部,单击保存更改按钮。

  5. 在顶部导航栏中,单击 Parcels 图标返回到可用包列表,您应该在其中看到可用的 Anaconda 包的最新版本。

  6. 在 Anaconda 地块列表的右侧,单击下载按钮。

  7. 下载parcel 后,单击分发按钮将parcel 分发到所有集群节点。

  8. 分发宗地后,单击“激活”按钮以激活所有集群节点上的宗地。

  9. 出现提示时,确认激活。


激活parcel 后,Anaconda 在所有集群节点上都可用。


您可以提交 Spark 作业以及PYSPARK_PYTHON引用 Anaconda 位置的环境变量。例如,在一行中输入以下命令:

PYSPARK_PYTHON=/opt/cloudera/parcels/Anaconda/bin/ python spark-submit pyspark_script.py

笔记

上面显示的存储库 URL 安装了最新版本的 Anaconda 包。要安装旧版本的 Anaconda 包,请将https://repo.anaconda.com/pkgs/misc/parcels/archive/添加 到 Cloudera 管理器中的远程包存储库 URL,然后按照上述步骤使用所需版本的蟒蛇包裹。

包裹更新

Anaconda 每年春季至少构建一次新的 Cloudera 包裹,并为我们的企业客户提供自定义包裹创建。上面显示的存储库 URL 中提供的 Anaconda 包基于 Python 2.7。要将 Anaconda 包与其他版本的 Python 或其他包一起使用,请联系sales @ anaconda com了解有关自定义 Anaconda 包构建或其他企业解决方案的更多信息,以将 Anaconda 与集群计算结合使用。

Anaconda Workgroup 和 Anaconda Enterprise 订阅者还可以使用 Anaconda Repository为 Cloudera Manager 创建和分发他们自己的自定义 Anaconda 包

有关管理 Cloudera 包的更多信息,请参阅 Cloudera 文档