在 Spark 中使用 Anaconda ¶

Apache Spark是一个分析引擎和并行计算框架，具有 Scala、Python 和 R 接口。Spark 可以直接从磁盘、内存和其他数据存储技术（例如 Amazon S3、Hadoop 分布式文件系统 (HDFS)、HBase、Cassandra 等）加载数据。

Anaconda Scale 可用于已具有托管 Spark/Hadoop 堆栈的集群。Anaconda Scale 可以与现有的企业 Hadoop 发行版（例如Cloudera CDH或 Hortonworks HDP）一起安装，并可用于跨集群管理 Python 和 R conda 包和环境。

要在头节点上运行脚本，只需在集群上执行即可。或者，您可以使用 Anaconda Scale 在集群上安装 Jupyter Notebook。有关更多信息，请参阅安装文档。python example.py

在 Anaconda 中使用 Spark 的不同方式¶

您可以交互式地开发 Spark 脚本，也可以将它们编写为 Python 脚本或在 Jupyter Notebook 中编写。

您可以使用多种方法将 PySpark 脚本提交到 Spark 集群：

通过在集群上执行 python example.py 直接在头节点上运行脚本。
在独立模式下或与 YARN 资源管理器一起使用spark-submit命令。
在集群上的 IPython shell 或 Jupyter Notebook 中以交互方式提交脚本。有关使用 Anaconda Scale 在集群上安装 Jupyter Notebook 的信息，请参阅安装。

您还可以将 Anaconda Scale 与企业 Hadoop 发行版（例如 Cloudera CDH 或 Hortonworks HDP）一起使用。

下面列出的主题描述了如何：

虽然这些任务是独立的并且可以按任何顺序执行，但我们建议您从使用 Spark 配置 Anaconda开始。