Sqoop安装部署比较简单,读者可以通过以下步骤来轻松部署Sqoop工具。
1.基础软件包准备
官方网站上发行的Sqoop版本分为Sqoop 1和Sqoop 2,这两个是完全不同的版本,不兼容。
提示:Sqoop 2并不是Sqoop 1的升级版,它们底层架构不同,互不兼容。Sqoop 2的架构稍复杂,配置部署比较烦琐,这里推荐使用Sqoop 1来快速进行实战演练。
2.部署
(1)将下载好的软件包解压到指定位置。操作命令如下:
(2)软件包解压完成后,可以进行Sqoop环境配置。操作命令如下:
在完成环境变量配置后,在终端输入以下命令时当前配置的环境变量立即生效。操作命令如下:
(3)修改Sqoop1脚本。
在sqoop-env.sh脚本文件中,修改环境变量路径。变更内容如下:
(4)加载驱动包。在将关系型数据库(RDBMS)的数据导入到Hadoop的分布式文件系统(HDFS)时,需要加载数据库驱动包。
这里以MySQL数据库为例。在MySQL官方网站下载MySQL驱动包(mysql-connector-java-5.1.32-bin.jar),并将下载好的JAR文件复制一份到Sqoop1的lib文件夹下。这样在执行Sqoop1脚本将MySQL数据库中的数据导入到Hadoop的分布式文件系统(HDFS)中时,就不会出现找不到MySQL驱动或者MySQL驱动不可用的异常。
提示:选择和MySQL数据库版本相对应的驱动进行下载。
3.Sqoop 1的命令参数
使用Sqoop1脚本命令进行数据导入和导出时,涉及import和export命令。以MySQL数据库为例,表1和表2分别为import和export命令的各个参数。
表1 Sqoop 1版本的import命令
表2 Sqoop 1版本的export命令