在 Spark 中使用 Anaconda

Apache Spark是一个分析引擎和并行计算框架,具有 Scala、Python 和 R 接口。Spark 可以直接从磁盘、内存和其他数据存储技术(例如 Amazon S3、Hadoop 分布式文件系统 (HDFS)、HBase、Cassandra 等)加载数据。

Anaconda Scale 可用于已具有托管 Spark/Hadoop 堆栈的集群。Anaconda Scale 可以与现有的企业 Hadoop 发行版(例如Cloudera CDHHortonworks HDP)一起安装 ,并可用于跨集群管理 Python 和 R conda 包和环境。

要在头节点上运行脚本,只需在集群上执行即可。或者,您可以使用 Anaconda Scale 在集群上安装 Jupyter Notebook。有关更多信息,请参阅安装文档。python example.py

在 Anaconda 中使用 Spark 的不同方式

您可以交互式地开发 Spark 脚本,也可以将它们编写为 Python 脚本或在 Jupyter Notebook 中编写。

您可以使用多种方法将 PySpark 脚本提交到 Spark 集群:

  • 通过在集群上执行 python example.py 直接在头节点上运行脚本。
  • 在独立模式下或与 YARN 资源管理器一起使用spark-submit命令。
  • 在集群上的 IPython shell 或 Jupyter Notebook 中以交互方式提交脚本。有关使用 Anaconda Scale 在集群上安装 Jupyter Notebook 的信息,请参阅安装

您还可以将 Anaconda Scale 与企业 Hadoop 发行版(例如 Cloudera CDH 或 Hortonworks HDP)一起使用。

在 Spark 中使用 Anaconda Scale

下面列出的主题描述了如何:

  • 将 Anaconda 和 Anaconda Scale 与 Apache Spark 和 PySpark 结合使用
  • 与存储在集群上的 Hadoop 分布式文件系统 (HDFS) 中的数据进行交互

虽然这些任务是独立的并且可以按任何顺序执行,但我们建议您从使用 Spark 配置 Anaconda开始。