Cloudera CDH ¶
Cloudera 为企业客户提供基于 Apache Hadoop 的软件、支持和服务以及培训。他们的开源 Apache Hadoop 发行版 CDH(包括 Apache Hadoop 的 Cloudera 发行版)针对该技术的企业级部署。
在具有Cloudera CDH的现有集群上使用 Anaconda 有两种方法 ,Cloudera 的发行版包括 Apache Hadoop:
- 将 Anaconda 包用于 Cloudera CDH。以下过程描述了如何使用 Cloudera Manager 在 CDH 集群上安装 Anaconda Parcel。Anaconda 包提供基于 Python 2.7 的 Anaconda 静态安装,可与集群上的 Python 和 PySpark 作业一起使用。
- 使用 Anaconda Scale,它提供了额外的功能,包括管理多个 conda 环境和包的能力,包括 Python 和 R,以及现有的 CDH 集群。有关更多信息,请参阅将 Anaconda 与 Cloudera CDH 结合使用。
请参阅博客文章自助开放数据科学:Cloudera 的自定义 Anaconda 包裹。
安装 Anaconda 包¶
在 Cloudera Manager Admin Console 的顶部导航栏中,单击 Parcels 图标。
在宗地页面的右上角,单击编辑设置按钮。
在远程包裹存储库 URL 部分中,单击加号,然后为 Anaconda 包裹添加以下存储库 URL:
https://repo.anaconda.com/pkgs/misc/parcels/
在页面顶部,单击保存更改按钮。
在顶部导航栏中,单击 Parcels 图标返回到可用包列表,您应该在其中看到可用的 Anaconda 包的最新版本。
在 Anaconda 地块列表的右侧,单击下载按钮。
下载parcel 后,单击分发按钮将parcel 分发到所有集群节点。
分发宗地后,单击“激活”按钮以激活所有集群节点上的宗地。
出现提示时,确认激活。
激活parcel 后,Anaconda 在所有集群节点上都可用。
您可以提交 Spark 作业以及PYSPARK_PYTHON
引用 Anaconda 位置的环境变量。例如,在一行中输入以下命令:
PYSPARK_PYTHON=/opt/cloudera/parcels/Anaconda/bin/ python spark-submit pyspark_script.py
笔记
上面显示的存储库 URL 安装了最新版本的 Anaconda 包。要安装旧版本的 Anaconda 包,请将https://repo.anaconda.com/pkgs/misc/parcels/archive/添加 到 Cloudera 管理器中的远程包存储库 URL,然后按照上述步骤使用所需版本的蟒蛇包裹。
包裹更新¶
Anaconda 每年春季至少构建一次新的 Cloudera 包裹,并为我们的企业客户提供自定义包裹创建。上面显示的存储库 URL 中提供的 Anaconda 包基于 Python 2.7。要将 Anaconda 包与其他版本的 Python 或其他包一起使用,请联系sales @ anaconda 。com了解有关自定义 Anaconda 包构建或其他企业解决方案的更多信息,以将 Anaconda 与集群计算结合使用。
Anaconda Workgroup 和 Anaconda Enterprise 订阅者还可以使用 Anaconda Repository为 Cloudera Manager 创建和分发他们自己的自定义 Anaconda 包。
有关管理 Cloudera 包的更多信息,请参阅 Cloudera 文档。