实际生产环境中,我们要处理的数据来自可能各个地方,业务数据库,爬虫数据库,日志文件,api网关买入数据等。
本次黑马头条推荐项目中,业务数据存储在mysql中,用户行为数据存储在日志中,因此采用两种技术手段将业务数据和日志数据传输到Hadoop中。
一、迁移数据库
业务数据存储在mysql中,为了避免直接操作业务数据,利用sqoop导入到hive表中(底层数据就是存储在HDFS上)
业务数据不是一次导入就结束,每天都会产生很多新的业务数据,因此这里就涉及到利用sqoop导入数据到hive的方式。
Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
【Sqoop支持两种方式的数据导入,即全量数据导入和增量数据导入】。
1、sqoop导数据的方式一:全量数据导入
(1)概念:如同名字那样,全量数据导入就是一次性将所有需要的数据,从关系型数据库一次性导入到Hadoop生态中(可以是HDFS,Hive,Hbase等)。
(2)适用场景:一次性离线分析场景
(3)代码实现:用sqoop import命令,具体如下:
# 全量数据导入
Sqoop import
1. --connect jdbc:mysql://192.168.15.111/toutiao \
2. --username root \
3. --password 123456 \
4. --table $table_name \
5. --query ‘select * from $table_name where $conditions ’ \
6. --m 5 \
7. --hive-import \
8. --hive-home /usr/local/hive \
9. --hive -drop-import-delims \
10. --target-dir /user/hive/warehouse \
11. --create-hive-table \
12. --hive-table toutiao.$table_name \
2、Sqoop导数据的方式二:增量数据导入
(1)使用场景:实际生产环境中,不断有业务相关的数据产生到关系型数据库,系统需要定期从数据库向hadoop导入数据,导入数仓后,继续进行离线分析。我们不可能将所有的数据重新导一遍,此时就需要用sqoop的增量数据导入模式。
增量数据导入分两种,一是基于递增列的增量数据导入(Append),二是基于时间序列的增量数据导入(LastModified)
2.1基于递增列的增量数据导入(Append)
举个栗子,有一个订单表,里面每个订单有一个唯一标识自增列ID,在关系型数据库中以主键形式存在。之前已经将id在0~5201314之间的编号的订单导入到Hadoop中了(这里为HDFS),一段时间后我们需要将近期产生的新的订单数据导入Hadoop中(这里为HDFS),以供后续数仓进行分析。此时我们只需要指定–incremental 参数为append,–last-value参数为5201314即可,表示只从id大于5201314后开始导入。
1. sqoop import \
2. --connect jdbc:mysql://192.168.15.111:3306/test \ #连接到指定数据库
3. --username root \
4. --password 123456 \
5. --table order_table \ # 指定数据库的指定表
6. --target-dir /user/mysql_to_hdfs \
7. --m 3 \
8. –-hive import \
9. –-incremental append \ # 指明模式
10. –-check-column order_id # 指明用于增量导入的参考列
11. –-last-value 5201314 \ # 指定参考列上次导入的最大值
参数 | 说明 |
---|---|
–incremental append | 基于递增列的增量导入(将递增列值大于阈值的所有数据增量导入Hadoop) |
–check-column | 递增列(int) |
–last-value | 阈值(int) |
2.2基于时间序列的增量数据导入(LastModified)
此方式要求原有表中有time字段,它能指定一个时间戳,让Sqoop把该时间戳之后的数据导入至Hadoop(这里为HDFS)。比如我的头条业务数据库中,某篇文章的点赞数增加或减少了,变成了一个新的数据,在我指定的时间戳后面作为新的业务数据导入到了Hadoop(这里指HDFS),我们可以指定给merge-key参数,例如是article_id,表示将后续的新的记录与原有的记录合并。
代码:
sqoop import \
1. --connect jdbc:mysql://192.168.15.111/toutiao \
2. --username root \
3. --password password \
4. --table article_basic \ # 指定数据表导入Hadoop
5. --m 4 \
6. --target-dir /user/hive/warehouse/toutiao.db/article_basic \
7. --incremental lastmodified \
8. --check-column update_time \
9. --merge-key article_id \
10. --last-value '2012-02-01 11:0:00'
重要参数
参数 | 说明 |
---|---|
–incremental lastmodified | 基于时间列的增量导入(将时间列大于等于阈值的所有数据增量导入Hadoop) |
–check-column | 时间列(int) |
–last-value | 阈值(int) |
–merge-key | 合并列(主键,合并键值相同的记录) |
这里注意-incremental lastmodified 模式不支持用sqoop直接导入到hive中,需要先导入到hdfs,然后建立hive表关联。
那怎么才能实现mysql数据迁移到hive上呢?
Sqoop将mysql数据导入到HDFS上,指定位置:
–target-dir /user/hive/warehouse/toutiao.db/
然后进入hive交互界面,在toutiao.db数据库中建表,表名和传上来的数据文件一样,hive就能自动将数据映射到hive表中。
【导入的过程总有一些坑,这里提供一些避坑指南】
1、注意:sqoop将数据导出的hdfs分片数据,默认用‘ ,’分割,而hive默认的分隔符是’ 001’。所以在hive中创建表的时候要指定分隔符。
2、原mysql中某些字段存在特定字符,如,、\t \n 都会导致导入到hadoop被hive读取失败,解
析时会认为是另一条数据,或者多一个字段。
///解决办法///:
导入时,加入query参数,选择特定字段,过滤相应内容,使用replace,char替换字符
3、mysql数据库里面字段是tinyint类型,通过sqool导入到hdfs,hive建表映射数据后,该字段却显示True,False,这是因为jdbc会把tinyint认为是java.sql.Types.BIT,然后hive就转为Boolean类型了。
///解决办法///:
在connect中加入一句话就可以了 ?tinyInt1isBit t=false 就行了,例如:
–connect jdbc:mysql://192.168.15.111/toutiao?tinyInt1isBit=false
关于脚本的执行
因为业务数据每天都会产生,因此每天都要导入数据到HDFS,根据各个公司和实际生产要求,可能是每天定点导一次数据(这个还可以认为定时导数据),也可能是每天多个时间定点导数据,这样就不适合人为导,应该利用程序自动导数据,这里我们利用一个Linux命令:crontab,设定时间自动导数据。
首先简要介绍一下crontab命令
Linux Crontab
Linux crontab是用来定期执行程序的命令
当安装完成操作系统之后,默认便会启动此任务调度命令
crond 命令每分钟会定期检查是否有要执行的工作,如果有要执行的工作便会自动执行该工作。
注意:
新创建的 cron 任务,不会马上执行,至少要过 2 分钟后才可以,当然你可以重启 cron 来马上执行。而 linux 任务调度的工作主要分为以下两类:
1、系统周期性所要执行的工作,比如写缓存数据到硬盘、日志清理等。在/etc目录下有一个crontab文件,这个就是系统任务调度的配置文件。
2、个人执行的工作:某个用户定期要做的工作,例如每隔10分钟检查邮件服务器是否有新信,这些工作可由每个用户自行设置。
cron通过 /etc/cron.allow 和 /etc/cron.deny 文件来限制某些用户是否可以使用 crontab 命令,
(1)当系统中有 /etc/cron.allow 文件时,只有写入此文件的用户可以使用 crontab 命令,没有写入的用户不能使用 crontab 命令。同样,如果有此文件,/etc/cron.deny 文件会被忽略,因为 /etc/cron.allow 文件的优先级更高。
(2)当系统中只有 /etc/cron.deny 文件时,写入此文件的用户不能使用 crontab 命令,没有写入文件的用户可以使用 crontab 命令。
(3)crontab文件都位于/var/spool/cron/目录中
crontab使用方法
第一步:创建crontab文件
[root@localhost !]$ crontab -e
显示结果
#进入 crontab 编辑界面。会打开Vim编辑你的任务
* * * * * 执行的任务
执行这个命令的时候,打开的是一个空文件,操作方法和vim一样,文件里面填写需要执行的任务。
第二步:在文件中写下需要执行的任务
* * * * * 执行的任务
这里分两部分来学习,第一部分的五个*,表示设定的时间,第二部分表示要执行的commad或者某目录中的脚本。
【Part 1】* * * * *(f1 f2 f3 f4 f5)
- f1 是表示分钟;为 * 时表示每分钟都要执行 program;为 */n 表示每 n 分钟个时间间隔执行一次;当 f1 为 a-b 时表示从第 a 分钟到第 b 分钟这段时间内要执行。
- f2 表示小时;为 * 时表示每小时都要执行 program;为 */n 表示每 n 小时个时间间隔执行一次 ;f2 为 a-b 时表示从第 a 到第 b 小时都要执行
- f3 表示一个月份中的第几日,program 表示要执行的程序;其他情况同上年的f1,f2
- f4 表示几月份,program 表示要执行的程序;其他情况同上年的f1,f2
- f5 表示一个星期中的第几天,program 表示要执行的程序;其他情况同上年的f1,f2
【Part 2】command 需要执行的命令
这里的command可以是一个简单的指令,例如启动某功能,也可以是指定目录下的脚本。
【使用示例】
实例1:每1分钟执行一次重启smb
命令:* * * * * /etc/init.d/smb restart
实例2:每两小时重启smb
命令:* */2 * * * /etc/init.d/smb restart
实例3:晚上11点到早上7点之间,每隔一小时重启smb
命令:* 23-7/1 * * * /etc/init.d/smb restart
实例4:隔半小时从mysql增量导入一次数据到hadoop
命令:* */0.5 * * * /root/toutiao_project/scripts/import_incremental.sh
—补充—
二、Flume收集用户日志信息
1、Flume概述
- Flume 是分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构(指一条一条采集数据),灵活简单
- 流式架构处理数据的单位很小,来一条数据处理一条。所以MapReduce不是流式架构(是一个文件),spark也不是流式架构
- 流式架构和实时在线处理没有必然联系,但是流式架构处理实时数据具有优势。比如spark不是流式架构,但是它的spark streaming也可以处理实时数据。
2、Flume作用
- Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。
- 说白了就是一个采集数据的工具,使用简单,配置文件即可。
- 可以从文件,文件夹,http协议等地方采集
(目录:只要目录中的文件有变化,就会进行采集该数据
Shell命令:执行一条shell命令,shell命令的输出会既然sources)
** 为什么要用flume?** 优点如下:
- flume可以和任意存储进程集成
- 数据的数据速率大于写入目的存储的速率,flume会进行缓冲,减小hdfs的压力(怎么理解:源数据来的忽快忽慢,日志信息可能在用户活跃期间瞬间有5G日志信息,在夜间等几乎没有日志信息,但是因为flume的缓冲能力,到达hdfs的速度相对平稳一些。)
3、Flume运行机制
flume运行的最小单元,独立运行在一个JVM中。一个agent里面包括一个或多个sources,channels,sinks,每个agent内部有三个组件。
1)souce:数据采集组件,对接我们的源数据
2)channel:传输通道组件,通俗叫管道,数据的缓冲区,连接source和sink,将source和sink进行打通
3)sink:下沉组件,用于向下一级agent传递数据或者往最终的存储系统传递数据。
4、Flume安装
1.下载
Wget https://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz
2.解压
tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /usr/local
3.重命名
mv apache-flume-1.9.0-bin.tar flume
4.配置环境变量
vi /etc/profile
添加以下信息
export FLUME_HOME=/usr/local/flume
export PATH=$PATH:$FLUME_HOME/bin
5.验证环境变零
source /etc/profil
6.修改flume的conf目录下文件,flume-env.sh,如果没有,就复制flume-env.sh.template
vi flume-env.sh
修改java的路径信息配置
export JAVA_HOME=/usr/local/java
7.校验是否安装成功,进入bin目录
./flume-ng version
显示出版本号,说明安装成功:
5、Flume案例
案例之监控端口数据
1) 案例需求
使用flume监听一个端口,收集该端口的数据,并打印到控制台
2) 案例分析
① 通过netcat工具向本机的44444(随机选取的,如果hadoop开了,就不要选取8070等特殊的端口,因为这些端口已经在使用了)端口发送数据,例如hell
②通过flume监控本机的4444端口,通过flume的source端读取数据。
③flume将获取的数据通过sink端口直接写到控制台。
3)操作
Flume不需要写代码,都是写配置文件进行操作。
第一步:
在flume目录下创建一个job文件夹,用于放置自己写的操作配置文件,在 job 文件夹下创建 Flume Agent 配置文件netcat-logger.conf
[root@bigdata111 flume]$ touch netcat_logger.conf
第二步:
在该文件中添加如下内容:
# 定义这个agent中各个组件的名字,这是固定写法
a1.sources = r1
a1.sinks = k1 a1.channels = c1
# 描述和配置source组件:r1
a1.sources.r1.type = netcat
a1.sources.r1.bind =192.168.15.111
a1.sources.r1.port = 44444
# 描述和配置sink组件:k1
a1.sinks.k1.type = logger
# 描述和配置channel组件,此处采用的是内存缓存的方式
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# 描述和配置source channel sink之间的连接关系
a1.sources.r1.channels = c1 a1.sinks.k1.channel = c1
第三步:
安装talent测试
yum -y install telnet
第四步:
实验验证,进入flume目录,执行命令:
bin/flume-ng agent -c conf -f job/netcat-logger.conf -n a1 -Dflume.root.logger=INFO,console
执行的命令解释:
bin/flume-ng:目录下有个flume-ng脚本,
agent:启动一个agent
-c conf:表示使用我们自己配置的conf文件
-f job/netcat-logger.conf:我们自己的agent文件路径,这里填的是相对路径
-n a1:给agent起个名字,叫a1,注意这个名字我们netcat-logger.conf文件里面的名字一致
最后就是一些常规的启动日志参数,这里表示把启动日志都打印到控制台
启动监控功能,出现以下画面即为成功:
另开一个窗口,执行以下指令:
telnet 192.168.15.111 44444
在该端口任意输入,例如hello python,在另个监控端口就能监控到。
总结:【以上是通过exec监听数据源,这种方式虽然实时性较高,但是可靠性较差,当source程序运行异常或者linux命令中断,都会造成数据的丢失,再恢复正常运行之前,数据的完整性无法得到保证。
Spooling Directory Source通过监听某个目录下的新增文件,并将文件的内容读取出来,实现日志信息的收集。实际使用中会结合log4j进行使用。被传输结束的文件会修改后缀名,添加.completed后缀(可以自定义)。】
案例之实时读取目录文件到 HDFS
1)案例需求
监控某一个文件夹下面的所有文件,只要这个目录下面有文件,收集文件内容,上传到HDFS上。
2) 案例分析
source:监看某个文件夹下的文件,发生变化,就收集文件内容到HDFS.
channel:memory channel(内存缓存)
sink:用HDFS的sink(这样数据才能到HDFS上)
3) 编写agent配置文件
进入flume的job文件夹,新建文件spooldir.conf文件,将上述agent的配置内容写进入
# 定义这个agent中各个组件的名字,这里agent取名a1,三个组件取名r1,k1,c1
a1.sources = r1 # 定义source
a1.sinks = k1 # 定义 sink
a1.channels = c1 # 定义 channel
# 描述和配置source组件r1,注意不能往监控目录中丢重复同名文件呢
a1.sources.r1.type=spooldir # 定义source类型为目录
a1.sources.r1.spoolDir=/usr/data_temp/flume # 定义监控目录
a1.sources.r1.fileSuffix =.completed # 定义文件上传结束,后缀
a1.sources.r1.fileHeader=true # 定义是否有文件头 ,可加,可不加
# 描述和配置sink组件k1
a1.sinks.k1.type=hdfs # sink类型为hdfs
a1.sinks.k1.path=hdfs://localhost:9000 \
/user/spooldir/file/%y-%m-%d/%H%M/ \
a1.sinks.k1.filePrefix=upload- # 上传文件到hdfs的前缀
#文件的采集策略,多长时间采集一次,文件多大采集一次
a1.sinks.k1.hdfs.round=true # 是否按时间滚动文件
a1.sinks.k1.hdfs.roundValue=1 # 多长时间单位创建一个新的文件夹
a1.sinks.k1.hdfs.roundUnit=minute # 重新定义时间单位
a1.sinks.k1.hdfs.useLocalTimeStamp = true # 是否使用本地时间戳
a1.sinks.k1.hdfs.rollInterval=10 # 多久生成新文件,单位是多少秒
a1.sinks.k1.hdfs.rollSize=20 # 多大生成新文件
a1.sinks.k1.hdfs.collCount=0 #多少个event生成新文件
a1.sinks.k1.hdfs.minBlockReplicas=1 # 生成多少个副本
# 生成的文件类型,默认是Sequencefile,可以用DataStream(就是普通文本)
a1.sinks.k1.hdfs.fileType=DataStream
#描述和配置channel组件:c1
a1.channels.c1.type=memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# 描述和配置source channel sink之间的连接关系
a1.sources.r1.channels=c1
a1.sinks.k1.channel =c1
将数据放到hdfs上,要避免产生大量的小文件,通过控制文件采集策略,一般设置两种采集策略,例如文件127.9M采集一次,两个小时滚动一次。
4)启动agent
进入flume目录
bin/flume-ng agent -c conf -f job/spooldir.conf -n a1 -Dflume.root.logger=INFO, console
只要我们指定的目录/usr/data_temp/flume下有文件变化,就会被flume采集到HDFS上。
转载自原文链接, 如需删除请联系管理员。
原文链接:黑马头条推荐项目知识点总结(一),转载请注明来源!