在 Spark 中使用 Anaconda ¶
Apache Spark是一个分析引擎和并行计算框架,具有 Scala、Python 和 R 接口。Spark 可以直接从磁盘、内存和其他数据存储技术(例如 Amazon S3、Hadoop 分布式文件系统 (HDFS)、HBase、Cassandra 等)加载数据。
Anaconda Scale 可用于已具有托管 Spark/Hadoop 堆栈的集群。Anaconda Scale 可以与现有的企业 Hadoop 发行版(例如Cloudera CDH或 Hortonworks HDP)一起安装 ,并可用于跨集群管理 Python 和 R conda 包和环境。
要在头节点上运行脚本,只需在集群上执行即可。或者,您可以使用 Anaconda Scale 在集群上安装 Jupyter Notebook。有关更多信息,请参阅安装文档。python example.py
在 Anaconda 中使用 Spark 的不同方式¶
您可以交互式地开发 Spark 脚本,也可以将它们编写为 Python 脚本或在 Jupyter Notebook 中编写。
您可以使用多种方法将 PySpark 脚本提交到 Spark 集群:
- 通过在集群上执行 python example.py 直接在头节点上运行脚本。
- 在独立模式下或与 YARN 资源管理器一起使用spark-submit命令。
- 在集群上的 IPython shell 或 Jupyter Notebook 中以交互方式提交脚本。有关使用 Anaconda Scale 在集群上安装 Jupyter Notebook 的信息,请参阅安装。
您还可以将 Anaconda Scale 与企业 Hadoop 发行版(例如 Cloudera CDH 或 Hortonworks HDP)一起使用。
在 Spark 中使用 Anaconda Scale ¶
下面列出的主题描述了如何:
- 将 Anaconda 和 Anaconda Scale 与 Apache Spark 和 PySpark 结合使用
- 与存储在集群上的 Hadoop 分布式文件系统 (HDFS) 中的数据进行交互
虽然这些任务是独立的并且可以按任何顺序执行,但我们建议您从使用 Spark 配置 Anaconda开始。