admin 管理员组文章数量: 887021
2024年2月20日发(作者:uncomparable和incomparable)
SparkSQL安装使用手册一、Spark简介1.1.什么是SparkSpark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用并行框架,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。与Hadoop采用MapReduce不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景。RDD,全称为ResilientDistributedDatasets,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据。基于Spark的并行运算框架之上,Spark提供了4类应用框架,一是SparkSQL,用于类似Hive的数据仓库方案;二是SparkStreaming,类似于ApacheStorm的流计算框架;三是MLib,用于机器学习,四是GraphX,用于图计算。本文档仅仅介绍SparkSQL相关的内容,其他相关框架在后续逐步学习理解后,将逐步形成文档。SparkSQL与Hive有着千丝万缕的关系,SparkSQL的前身为Shark,Shark直接使用了Hive的语法解析器、查询优化器等,在后续的SparkSQL中,虽然摆脱了Hive的依赖,但SparkSQL在数据、语法上1/7
完全保证了Hive的兼容。架构Spark提供三种部署方式:独立运行模式(可配置HA模式)、Mesos集群模式、YARN集群模式。HA的独立运行模式YARN模式采用YARN模式的话,其实就是把Spark作为一个客户端提交作业给YARN的ResourceManager,实际运行程序的是YARN,就不需要部2/7
署多个节点,部署一个节点就可以。1.3.环境说明二、Scala安装Spark因采用的Scala语言进行的编写,因此实现安装Scala。从Scala官方网站(/download/)上下载最新版本的Scala安装包,本示例采用的为。将下载的安装包上传到服务器上,解压安装包;$tar–-C/opt设置环境变量$sudovi/etc/profile增加以下内容:exportSCALA_HOME=/opt/scalaexportPATH="$SCALA_HOME:$PATH"启用环境变量$source/etc/profile备注:在所有服务器上,均需要安装Scala。三、Spark安装2.1.下载并解压从官方网站()上下载最新的二进制包,因本安装示例采用的Hadoop为2.6.x版本,所以下载的安装文件为。下载后,将文件上传至服务器上,进行解压操作。$-C/opt$ln-s/opt/spark-1.5.2-bin-hadoop2.6/opt/spark3/7
2.2.修改配置文件修改环境变量$sudovi/etc/profile修改内容如下:exportJAVA_HOME=/opt/jdkexportSCALA_HOME=/opt/scalaexportZOOKEEPER_HOME=/opt/zookeeperexportHADOOP_HOME=/opt/hadoopexportHADOOP_PREFIX=$HADOOP_HOMEexportHIVE_HOME=/opt/hiveexportSPARK_HOME=/opt/sparkexportPATH="$JAVA_HOME/bin:$SCALA_HOME/bin:$ZOOKEEPER_HOME/bin:$HADOOP_HOME/bin:$HIVE_HOME/bin:$SPARK_HOME/bin:$PATH"启用配置$source/etc/profile修改Spark配置文件$vi$SPARK_HOME/conf/增加如下内容:exportSCALA_HOME=/opt/scalaexportJAVA_HOME=/opt/jdkexportHADOOP_HOME=/opt/hadoopexportHADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexportHIVE_CONF_DIR=/opt/hive/conf/拷贝Hive配置$cp$HIVE_HOME/conf/$SPARK_HOME/conf备注:请将安装文件、调整后的配置,同步到所有服务器。2.3.独立运行模式设定work节点在master服务器上进行如下配置:$vi$SPARK_HOME/conf/slaves增加以下内容:4/7
hdfs1hdfs2hdfs3启动服务$$SPARK_HOME/sbin/启动后,在不同的服务器上运行$jps查看Master进程、Worker进程是否在运行中。同时可以用浏览器输入hdfs1:8080查看Spark的运行状态。启动SparkSQL$$SPARK_HOME/bin/spark-sql--masterspark://hdfs1:7077--executor-memory1g--total-executor-cores10--driver-class-path/opt/hive/lib/待启动完成后,输入showtables或其他HiveQL进行数据处理。启动ThriftServer启动服务$$SPARK_HOME/sbin/--masterspark://hdfs1:7077--executor-memory1g--total-executor-cores10--driver-class-path/opt/hive/lib/运行CLI$$SPARK_HOME/bin/beeline-ujdbc:hive2://hdfs1:10000同时,也可用浏览器输入hdfs1:4040查看ThriftServer的运行情况。5/7
模式在上述的独立运行模式中,Master节点为中心节点,一旦出现故障,Spark将无法正常运行,在HA模式中,采用ZooKeeper实现Master的主从。备注:在HA模式下不需要修改conf/slaves文件,请开展下列配置前,请先停止独立模式。修改Spark配置文件$vi$SPARK_HOME/conf/增加如下内容:exportSPARK_DAEMON_JAVA_OPTS="-ryMode==hdfs1:2181,hdfs2:2181,hdfs3:2181"备注:所有Master节点服务器需要配置。在Master节点启动Master服务$$SPARK_HOME/sbin/备注:使用master-server-ip:8080,查看服务状态,Master节点应当有且只有一个处于活动状态。在Worker节点启动Worker服务$$SPARK_HOME/sbin/k://hdfs1:7077,hdfs2:70776/7
启动SparkSQL$$SPARK_HOME/bin/spark-sql--masterspark://hdfs1:7077,hdfs2:7077--executor-memory1g--total-executor-cores10--driver-class-path/opt/hive/lib/启动ThriftServer$$SPARK_HOME/sbin/--masterspark://hdfs1:7077,hdfs2:7077--executor-memory1g--total-executor-cores10--driver-class-path/opt/hive/lib/集群模式采用YARN模式,无需进行过多的配置,直接启动相关服务即可。启动SparkSQL$$SPARK_HOME/bin/spark-sql--masteryarn--executor-memory1g--total-executor-cores10--driver-class-path/opt/hive/lib/启动ThriftServer$$SPARK_HOME/sbin/--masteryarn--executor-memory1g--total-executor-cores10--driver-class-path/opt/hive/lib/四、备注说明Spark1.5.2中SparkSQL功能与Hive1.2.1相比,略有差异,例如SparkSQL不支持INSERT语句,具体差异尚需具体使用中继续总结。7/7
版权声明:本文标题:SPARK安装使用手册 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.freenas.com.cn/free/1708399517h522714.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论