admin 管理员组

文章数量: 887007

基于python的hadoop(单机)环境搭建及使用

  • 0.写在前面
  • 1.虚拟机安装centos6.5
    • 1.1安装流程
      • 1.1.1系统安装
      • 1.1.2修改静态ip(超级用户)
      • 1.1.3更换可用源(超级用户)
      • 1.1.4安装配置telnet(超级用户)
      • 1.1.5关闭防火墙(超级用户)
    • 1.2参考网址
  • 2.在centos6.5中安装python
    • 2.1配置流程
      • 2.1.1安装python(超级用户)
      • 2.1.2需要安装的库(普通用户,有pip3装这些库会很简单)
    • 2.2参考网址
  • 3.在centos6.5中搭建hadoop(单机)并设置免密登录
    • 3.1配置流程
      • 3.1.1安装jdk(超级用户,大部分教程装在/usr目录上)
      • 3.1.2安装并配置hadoop(普通用户)
      • 3.1.3测试一下(普通用户)
      • 3.1.4设置免密登录(对应的用户)
    • 3.3参考网址
  • 4.使用hadoop
    • 4.1hadoop常用命令
      • 4.1.1 上传文件
      • 4.1.2 查看文件内容
      • 4.1.3 查看指定路径下的文件
      • 4.1.4 删除文件
      • 4.1.5下载文件
      • 4.1.6 创建目录或文件
      • 4.1.7 重命名文件
      • 4.1.8 终止作业
    • 4.3python中的mrjob库的运用
    • 4.2参考网址

0.写在前面

        多了解一些linux系统的基础。本记录贴基于Centos6.5版本,使用jdk1.7.0_71,python3.6.8,hadoop-2.5.2。文章内容为个人学习记录以及理解。如有错误,望斧正。

一、安装流程:
1.修改静态ip–>2.更换可用源–>3.安装python3(进入python3.6文件夹后先执行2.1的操作)–>4.安装pip3(本贴使用的是python3.6.8,相对较高版本不会出现需要更新ssh的情况)–>5.安装好相关库–>6.安装jdk

二、相关参考资源:
(1)Linux常用命令
(2)centos6.5 提取码:y0dz
(3)vm虚拟机 提取码:si64
(4)Python3.6.8 提取码:clhg
(5) jdk1.7_071 提取码:w5uj
(6)hadoop-2.5.2 提取码:nhn3

1.虚拟机安装centos6.5

1.1安装流程

安装虚拟机–>修改静态ip–>更换可用源

1.1.1系统安装

centos系统普通安装比较简单,略了。
查看当前系统的版本

cat /etc/redhat-release   #任意选一项即可
cat /etc/issue     #任意选一项即可

查看当前系统的内核

cat /proc/version			#任意选一项即可
uname -a					#任意选一项即可

无界面版安装参考参考网址

1.1.2修改静态ip(超级用户)

查看虚拟机的网络配置

再执行以下代码,根据以上参数修改ifcfg-eth0文档

vi /etc/sysconfig/network-scripts/ifcfg-eth0

我的配置如下

在ifcfg-eth0文件中主要修改:
        1.是BOOTPROTO改为静态
        2.修改ONBOOT=“yes”,指明在系统启动时激活网卡,只有在激活状态的网卡才能去连接网络,进行网络通讯。
        3.设置正确的ip地址,前三个码段要和虚拟机的网关一致
        4.USERCTL=yes/no 是否允许非root用户控制该设备
        5.IPADDR:ip地址
        6.NETMASK:子网掩码(一般为255.255.255.0)
        7.GATEWAY:网关

执行

service network restart

重启网络后,打开浏览器测试一下是否联网成功。
查看ip地址是否修改成功(以下命令任意都可以查看ip地址)

ip addr 				#任意选一项即可
ifconfig					#任意选一项即可

其余配置信息,可用以下命令查看

route

1.1.3更换可用源(超级用户)

换源
        超级用户模式下依次执行以下命令即可(以下命令是修改为阿里源的命令)

sed -i "s|enabled=1|enabled=0|g" /etc/yum/pluginconf.d/fastestmirror.conf
mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup
curl -o /etc/yum.repos.d/CentOS-Base.repo https://www.xmpan/Centos-6-Vault-Aliyun.repo
yum clean all
yum makecache

        第一句命令我目前不知是什么含义
        第二句是备份原本的的CentOS-Base.repo文件
        第三句下载Centos-6-Vault-Aliyun.repo并以CentOS-Base.repo保存
        第四句清除原本的缓存包
        第五句保存下载新下载的缓存包

查看是否换源成功

cat /etc/yum.repos.d/CentOS-Base.repo

        和下面类似有aliyum基本上是成功的了

        注:如果在换源成功后依然不能使用的情况,可以尝试以下方式解决(我遇到的问题确实是这个,所以能解决)在超级用户下修改

vi /etc/yum.repos.d/epel.repo

        把所有https改为http,如下

1.1.4安装配置telnet(超级用户)

安装前先查看telnet

rpm -qa | grep telnet

安装

yum install  xinetd
yum install telnet
yum install telnet-server

修改配置文件

vim  /etc/xinetd.d/telnet

用su权限把disable改为 no,如图

然后保存退出即可
最后使配置生效

service  xinetd restart

关闭防火墙,然后在物理机上设置一下
借用一下这个博客的图

然后就可以win+r唤出运行窗口并输入cmd打开命令行窗口
输入以下内容(虚拟机的ip地址)

telnet xxx.xxx.xxx.xxx 

连接自己的虚拟机了

接着输入自己虚拟机用户的账号密码,账号密码正确就会连接上了。

1.1.5关闭防火墙(超级用户)

查询防火墙状态

service iptables status

如下是防火墙开启状态

如下是防火墙关闭状态

临时关闭防火墙

service iptables stop

永久关闭防火墙

chkconfig iptables off

1.2参考网址

(1)VMware中安装Centos6.5-64位-minimal镜像
(2)修改静态ip
(3)CentOS 6 2021 可用源
(4)CentOS 6和CentOS 7防火墙的关闭
(5)centos6.5上安装配置telnet服务

2.在centos6.5中安装python

2.1配置流程

安装python3–>安装相关库

2.1.1安装python(超级用户)

        先安装一下系统依赖。(缺少依赖会导致hadoop无法运行,必须所有都装上,反正安装过的不会再安装

yum install -y zlib-devel bzip2-devel \
openssl-devel ncurses-devel sqlite-devel \
readline-devel tk-devel gcc make

        下载python3.6.8。下载太早的版本会遇到ssh版本太低的问题,比较难处理,所以我们这里下载3.6.8版本,博主亲测不会出现ssh过低问题。
可以先打开自己想要安装的位置,再执行以下操作。

wget https://www.python/ftp/python/3.6.8/Python-3.6.8.tgz

        解压
压缩包解压到当前路径下

tar -zxvf Python-3.6.8.tgz

        安装
先打开Python-3.6.8文件夹

cd Python-3.6.8
./configure --prefix=/usr/local/python3
make && make install

        建立软连接

ln -s /usr/local/python3/bin/python3.6 /usr/bin/python3.6
ln -s /usr/local/python3/bin/python3.6 /usr/bin/python3
ln -s /usr/local/python3/bin/pip3 /usr/bin/pip3

最后升级一下pip3

pip3 install --upgrade pip

2.1.2需要安装的库(普通用户,有pip3装这些库会很简单)

安装好相关的python库,为后面使用hadoop准备。

本文标签: 单机 环境 数据 技术 python