首页技术总结正文内容

大数据开发常见面试问题

技术总结

更新时间：2024-12-23 03:33:07 28

admin 管理员组

文章数量: 887021

2024年2月28日发(作者：c语言预定义标识符总表)

大数据开发常见面试问题

1、简述对大数据组件的理解？

Yarn：大数据组件运行的job的管理器

Spark：分布式的利用内存进行分布式运算的大数据组件

Hbase：基于Hadoop的大数据常用数据库

Hive：基于Hadoop的大数据数据仓库，操作和关系型数据库（MySQL）类似

2、hdfs文件系统中NameNode和DataNode的区别和联系？

NameNode存储了元数据，并且调度，协调整个集群

DataNode主要用来存储数据

3、讲述一下HDFS上传文件的流程

① 由客户端向 NameNode节点节点发出请求;

②NameNode 向Client返回可以可以存数据的 DataNode 这里遵循机架感应原则;

③客户端首先根据返回的信息先将文件分块(Hadoop2.X版本每一个block为 128M 而之前的版本为 64M;

④然后通过NameNode返回的DataNode信息直接发送给DataNode 并且是流式写入同时会复制到其他两台机器;

⑤dataNode 向 Client通信表示已经传完数据块同时向NameNode报告

⑥依照上面(④到⑤)的原理将所有的数据块都上传结束向 NameNode 报告表明已经传完所有的数据块。

4、了解zookeeper吗?介绍一下它，它的选举机制和集群的搭建。

ZooKeeper 是一个开源的分布式协调服务，是 Google Chubby 的开源实现。

分布式应用程序可以基于 ZooKeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。公司使用的flume集群，Kafka集群等等，都离不开ZooKeeper。每个节点上都要搭建ZooKeeper服务。首先我们要在每台pc上配置zookeeper环境变量，在cd到zookeeper下的conf文件夹下在zoo_文件中添加datadir路径，再到zookeeper下新建data文件夹，创建myid，在文件里添加上server的ip地址。在启动 start。

5、分布式引发的问题

死锁：至少有一个线程占用了资源，但是不占用CPU

活锁：所有线程都没有把持资源，但是线程却是在不断地调度占用CPU

需要引入一个管理节点

为了防止入口的单点问题，需要引入管理节点的集群

需要在管理阶段中选举出一个主节点

需要确定一套选举算法

主节点和从节点之间要保证数据的一致

6、Avro的介绍？

是序列化和RPC的框架。Avro一开始是Apache Hadoop的子件之一，但是后来发现Avro不只可以用于Hadoop而是可以用于多个场景下的序列化，所以单立出来形成一个新的组件。

7、flume的介绍？

Flume最早是Cloudera提供的日志收集系统，后贡献给Apache。所以目前是Apache下的项目，Flume支持在日志系统中定制各类数据发送方，用于收集数据。

Flume是一个高可用的，高可靠的鲁棒性（robust 健壮性），分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据(source);同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力(sink)。

8、Hbase的表的设计原则？

1、列族的数量及列族的势

建议将HBase列族的数量设置的越少越好。当强，对于两个或两个以上的列族HBase并不能处理的很好。这是由于HBase的Flushing和压缩是基于Region的。当一个列族所存储的数据达到Flushing的阈值时，该表中所有列族将同时进行Flushing操作。这将带来不必要的I/O开销，列族越多，该特性带来的影响越大。

此外，还要考虑到同一个表中不同列族所存储的记录数量的差别，即列族的势(Cardinality)。当两个列族数量差别过大时会使包含记录数量较少列族的数据分散在多个Region上，而Region有可能存储在不同的RegionServer上。这样，当进行查询或scan操作的时候，系统效率将会受到影响。

2、行键(RowKey)的设计

首先应该避免使用时序或单调(递减/递增)行键。因为当数据到来的时候，HBase首先需要根据记录的行键来确定存储的位置，即Region的位置，如果使用时序或单调行键，那么连续到来的数据将被分配到同一个Region中，而此时系统的其他Region/RegionServer处于空闲状态，这是分布式最不希望看到的状态。

3、尽量最小化行键和列族的大小

在HBase中，一个具体的值由存储该值的行键、对应的列(列族：列)以及该值的时间戳决定。HBase中索引是为了加速随即访问的速度，索引的创建是基于“行键+列族：列+时间戳+值”的，如果行键和列族的大小过大，甚至超过值本身的大小，纳闷将会增加索引的大小。并且在HBase中数据记录往往非常之多，重复的行键、列将不但使索引的大小过大，也将加重系统的负担

4、版本的数量

默认情况下为3个，可以通过HColumnDescriptor进行设置，建议不要设置的过大

9、Hadoop的文件读流程和写流程？

1、读流程：

客户端发起RPC请求访问NameNode

NameNode查询元数据，找到这个文件的存储位置对应数据块的信息

NameNode将文件对应的数据块的节点地址的全部或者部分放入一个队列中然后返回

client收到这个数据块对应的节点地址

client会从队列中取出第一个数据块对应的节点地址，会从这些节点地址中选取一个最近的节点进行读取

将Block读取之后，对Block进行shecksum的验证，如果验证失败，说明数据块产生损坏，那么client会向NameNode发送信息说明该节点上的数据块损坏，然后从其他节点中再次读取这个数据块

验证成功，则从队列中取出下一个Block的地址，然后继续读取

当把这一次的文件快全部读取完成之后，client会向NameNode要下一批Block的地址

当把文件全部读取完成之后，从client会向NameNode发送一个读取完毕的信号，，NameNode就会关闭对应的文件

2、写流程：

client发送RPC请求给NameNode

NameNode接收到请求之后，对请求进行验证，例如这个请求中的文件是否存在，再例如权限验证

如果验证通过，NameNode确定文件的大小以及分块的数量，确定对应的节点（会去找磁盘空间相对空闲的节点来使用），将节点地址放入队列中返回

客户端收到地址以后，从队列中依次取出节点地址，然后数据块依次放入对应的节点地址上

客户端在写完之后就会向NameNode发送写完数据的信号，NameNode会给客户端一个关闭文件的信号

DataNode之间将会通过管道进行自动备份，保证复本数量

10、hive与mysql（传统数据库）的区别？

查询语言不同：hive是hql语言，mysql是sql语言

数据存储位置不同：hive是把数据存储在hdfs上，mysql数据是存储在自己的系统中

数据格式：hive数据格式用户可以自定义，mysql有自己的系统定义格式

数据更新：hive不支持数据更新，只可以读，不可以写，而sql支持数据更新

索引：hive没有索引，因此查询数据的时候是通过mapreduce很暴力的把数据都查询一遍，也造成了hive查询数据速度很慢的原因，而mysql有索引；

延迟性：hive延迟性高，原因就是上边一点所说的，而mysql延迟性低；

数据规模：hive存储的数据量超级大，而mysql只是存储一些少量的业务数据；

底层执行原理：hive底层是用的mapreduce，而mysql是excutor执行器；

本文标签：数据节点文件分布式系统

版权声明：本文标题：大数据开发常见面试问题内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.freenas.com.cn/jishu/1709054344h537232.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

技术交流 – FreeNAS中文网

大数据开发常见面试问题

更多相关文章

HUAWEI华为MateBook 14s 2021款i5集显触屏(HKD-W56)原装出厂windows10系统恢复原厂OEM系统

win10系统计算机名称查看及重命名操作方法

VirtualBox 如何安装win10系统

win7系统怎样搭建电影服务器,win7系统免费看电影的操作方法

拥有一个智能化清理电脑垃圾的工具 是一个非常明智的选择 效率高&amp;安全删除文件

金蝶系统怎么清理服务器,“破坏王”教你如何彻底卸载金蝶kis专业版

Win10笔记本C盘清理全攻略：释放空间，提速系统

Windows11 系统下安装Anaconda详细教程

小米手机怎么装windows系统

如何恢复U盘里格式化数据？别慌，有带图详细步骤！

android 7.0 官方网址,Android7.0下载地址 安卓7.0系统手机下载安装教程

如何在手机上安装模拟windows系统

Windows系统如何备份无线网络配置

哈工大LTP：Windows系统Python本地调用

虚拟机系统iso镜像下载_[原版镜像]macOS Mojave 10.14.1 原版 iso 镜像- 虚拟机专用

windows7系统iis安装不了应该怎么办

windows系统下node、npm的安装和卸载

windows-sys:21：windows系统（win7 win10 win11）设置护眼色详细过程

手把手教你Windows下搭建Filebeat+Logstash+ElasticSearch+Kibana系统

正版Windows1011系统下载安装详细教程

发表评论

推荐文章

笔记本cpu天梯图2024 笔记本cpu性能排行榜2024

win10wifi间歇性断网重启后恢复_如何解决win10无线网间歇性掉线

使用ultraiso制作启动u盘

Windows下安装dlib

windows11安装日语输入法（添加输入法）

热门文章

Visual C++ 6.0 Win7 适用版下载

Linux系统下制作windows系统安装U盘

DELL服务器无光驱U盘通过iDRAC9安装系统

刚入门测试，拿到15K的offer，有点“技不配位”，有点慌，怎么办。

计算机重新装xp系统软件,关于安装软件重启XP电脑后软件不见的处理方法

如何用windows自带工具检测磁盘性能

windows7X64环境下wamp开启PHP_Curl组件

计算机无法启动打印服务,电脑重启print spooler服务无法启动怎么处理

计算机安全更新无法卸载,出现windows 系统补丁无法卸载该怎么解决？简单几步即可解决...

1080Ti+windows7和1080Ti+windows10的区别

最新文章

拥有一个智能化清理电脑垃圾的工具是一个非常明智的选择效率高&安全删除文件

android 7.0 官方网址,Android7.0下载地址安卓7.0系统手机下载安装教程