大数据技术 / 学习日志 · 2022年6月5日 0

Spark 安装与部署


Warning: Undefined variable $post_id in /data/www/wwwroot/blog.ymypay.cn/wp-content/plugins/wp-baidu-record/wp-baidu-record.php on line 56

1.Spark的四种部署方式介绍

(1)Local

本地模式,运行在一台机器上,通常是练手或者测试环境。
(2)Standalone

独立集群模式,构建一个基于Master+Slaves的资源调度集群,Spark任务提交给Master运行。是Spark自身的一个调度系统。
(3)Yarn

Spark客户端直接连接Yarn,不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式,主要区别在于:Driver程序的运行节点。(yarn-client的Driver程序运行在客户端,适用于交互、调试,而yarn-cluster的Driver程序运行在由ResourceManager启动的ApplicationMaster中,适用于生产环境)
(4)Mesos

Spark客户端直接连接Mesos,不需要额外构建Spark集群,用的比较少。

2.前期准备

一键下载:

也可自行官网下载:https://spark.apache.org/

3.解压

为方便下发目录到从节点(完全分布),在根目录新建/dsj
使用解压命令:tar -zxvf spark-2.1.1-bin-hadoop2.7.tar.gz -C /dsj

4.配置JAVA环境变量

sudo vi /etc/profile
然后到最底部添加:
export PATH
export JAVA_HOME=/dsj/jdk1.8.0_162
export JRE_HOME=$JAVA_HOME/jre
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin

5.修改hosts文件(节点)

sudo vi /etc/hosts
然后根据实际情况修改节点,从节点为:slave1 slave2,主节点为:master
192.168.23.61 master
192.168.23.62 slave1
192.168.23.68 slave2

6.配置Spark配置文件

(1).配置 spark-env.sh

进入spark主目录
cd /dsj/spark-2.1.1-bin-hadoop2.7
进入conf目录
cd conf
cp spark-env.sh.template spark-env.sh
粘贴以下配置(java环境根据实际情况,host节点根据实际情况)
export JAVA_HOME=/dsj/jdk1.8.0_162
export SPARK_MASTER_HOST=master
export SPARK_MASTER_PORT=7077

(2).配置 slaves

进入spark主目录
cd /dsj/spark-2.1.1-bin-hadoop2.7
进入conf目录
cd conf
cp slaves.template slaves
把本地的删掉,粘贴以下配置根据实际情况
master
slave1
slave2

7.分发从节点

主命令     scp -r 目录 root@节点:路径
例子:
scp -r /dsj/spark-2.1.1-bin-hadoop2.7 root@slave1:/dsj
scp -r /dsj/spark-2.1.1-bin-hadoop2.7 root@slave2:/dsj

8.配置完成,验证

  • 需要先将hadoop启动
  • 进入spark目录 sbin/star-all.sh
  • 输入jps查看,如果有Worker Master则为成功,其余五个为hadoop,从节点有worker

9.箴言

如本文章有写错的,配置错的地方,可以评论指出错误,谢谢大家


微信扫描下方的二维码阅读本文