Spark on YARN 环境搭建

2022-05-25 BigData Spark, YARN 0 评论

Spark on YARN 本质

构建HA standAlone集群可以满足稳定的Spark生产环境要求。

而在YARN集群之上构建Hadoop集群可以提高资源利用率，因为企业的服务器资源总是紧张的

YARN本身是一个资源调度框架，负责对运行在内部的计算框架进行资源调度管理

作为典型的计算框架，Spark本身也是直接运行在YARN中，并接受YARN调度。

所以，SPARK on YARN 无需部署Spark集群，只要找一台服务器，充当Spark的客户端，既可以提交任务到YARN 集群中运行。

本质:

1	vi /opt/spark/conf/spark-env.sh

只要配置好HADOOP_CONF_DIR和YARN_CONF_DIR配置即可

1
2
3

# 启动
./bin/spark-submit --master yarn
./bin/spark-submit --master yarn /opt/spark/examples/src/main/python/pi.py 100

spark_yarn

spark_yarn_hadoop

Spark on YARN 有两种运行模式：

通过spark-submit,pyspark,spark-shell启动的任务

cluster模式效率高，但产生的日志也在容器内部不宜查找

本文链接： http://shizhonggan.github.io/2022/05/25/BigData/SparkYarn/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！