热点在线丨大数据NiFi（十八）：离线同步MySQL数据到HDFS

2023-02-22 21:05:34 来源：腾讯云

离线同步MySQL数据到HDFS

案例：使用NiFi将MySQL中数据导入到HDFS中。

以上案例用到的处理器有“QueryDatabaseTable”、“ConvertAvroToJSON”、“SplitJson”、“PutHDFS”四个处理器。

(资料图片)

一、配置“QueryDatabaseTable”处理器

该处理器主要使用提供的SQL语句或者生成SQL语句来查询MySQL中的数据，查询结果转换成Avro格式。该处理器只能运行在主节点上。

关于“QueryDatabaseTable”处理器的“Properties”配置的说明如下：

配置项	默认值	允许值	描述
Database Connection Pooling Service（数据库连接池服务）			用于获得与数据库的连接的Controller Service。
Database Type（数据库类型）	Generic		选择数据库类型。Generic 通用类型OracleOracle 12+MS SQL 2012+MS SQL 2008MySQLPostgreSQL
Table Name（表名）			查询数据库的表名，当使用“Custom Query”时，此为查询结果的别名，并作为FlowFile中的属性。
Columns to Return（返回的列）			查询返回的列，多个列使用逗号分隔。如果列中有特殊名称需要加引号，则所有列都需要加引号处理。
Additional WHERE clause（where条件）			在构建SQL查询时添加到WHERE条件中的自定义子句。
Custom Query（自定义SQL查询）			自定义的SQL语句。该查询被构建成子查询，设置后不会从其他属性构建SQL查询。自定义SQL不支持Order by查询。
Maximum-value Columns（最大值列）			指定增量查询获取最大值的列，多列使用逗号分开。指定后，这个处理器只能检索到添加/更新的行。不能设置无法比较大小的列，例如：boolean/bit。如果不指定，则参照表中所有的列来查询全量数据，这会对性能产生影响。
Max Wait Time（最大超时时间）	0 seconds		SQL查询最大时长，默认为0没有限制，设置小于0的时间默认为0。
Fetch Size（拉取数据量）	0		每次从查询结果中拉取的数据量。
Max Rows Per Flow File（每个FlowFile行数）	0		在一个FlowFile文件中的数据行数。通过这个参数可以将很大的结果集分到多个FlowFile中。默认设置为0，所有结果存入一个FlowFile。
Output Batch Size（数据输出批次量）	0		输出的FlowFile批次数据大小，当设置为0代表所有数据输出到下游关系。如果数据量很大，则有可能下游很久没有收到数据，如果设置了，则每次达到该数据量就释放数据，传输到下游。
Maximum Number of Fragments（最大片段数）	0		设置返回的最大数据片段数，设置0默认将所有数据片段返回，如果表非常大，设置后可以防止OOM错误。
Normalize Table/Column Names（标准表/列名）	false	truefalse	是否将列名中不兼容avro的字符修改为兼容avro的字符。例如，冒号和句点将被更改为下划线，以构建有效的Avro记录。
Transaction Isolation Level			设置事务隔离级别。
Use Avro Logical Types(使用Avro逻辑类型)	false	truefalse	是否对DECIMAL/NUMBER, DATE, TIME 和 TIMESTAMP 列使用Avro逻辑类型。
Default Decimal Precision（Decimal数据类型位数）	10		当 DECIMAL/NUMBER 数据类型转换成Avro类型数据时，指定的数据位数。
Default Decimal Scale（Decimal 数据类型小数位数）	0		当 DECIMAL/NUMBER 数据类型转换成Avro类型数据时，指定的小数点后的位数。

Generic 通用类型OracleOracle 12+MS SQL 2012+MS SQL 2008MySQLPostgreSQL

Table Name（表名）查询数据库的表名，当使用“Custom Query”时，此为查询结果的别名，并作为FlowFile中的属性。 Columns to Return （返回的列）查询返回的列，多个列使用逗号分隔。如果列中有特殊名称需要加引号，则所有列都需要加引号处理。 Additional WHERE clause （where条件）在构建SQL查询时添加到WHERE条件中的自定义子句。 Custom Query （自定义SQL查询）自定义的SQL语句。该查询被构建成子查询，设置后不会从其他属性构建SQL查询。自定义SQL不支持Order by查询。 Maximum-value Columns （最大值列）指定增量查询获取最大值的列，多列使用逗号分开。指定后，这个处理器只能检索到添加/更新的行。不能设置无法比较大小的列，例如：boolean/bit。如果不指定，则参照表中所有的列来查询全量数据，这会对性能产生影响。 Max Wait Time（最大超时时间）0 seconds SQL查询最大时长，默认为0没有限制，设置小于0的时间默认为0。 Fetch Size（拉取数据量）0 每次从查询结果中拉取的数据量。 Max Rows Per Flow File（每个FlowFile行数）0 在一个FlowFile文件中的数据行数。通过这个参数可以将很大的结果集分到多个FlowFile中。默认设置为0，所有结果存入一个FlowFile。 Output Batch Size（数据输出批次量）0 输出的FlowFile批次数据大小，当设置为0代表所有数据输出到下游关系。如果数据量很大，则有可能下游很久没有收到数据，如果设置了，则每次达到该数据量就释放数据，传输到下游。 Maximum Number of Fragments（最大片段数）0 设置返回的最大数据片段数，设置0默认将所有数据片段返回，如果表非常大，设置后可以防止OOM错误。 Normalize Table/Column Names（标准表/列名）false true false 是否将列名中不兼容avro的字符修改为兼容avro的字符。例如，冒号和句点将被更改为下划线，以构建有效的Avro记录。 Transaction Isolation Level 设置事务隔离级别。 Use Avro Logical Types(使用Avro逻辑类型)false true false 是否对DECIMAL/NUMBER, DATE, TIME 和 TIMESTAMP 列使用Avro逻辑类型。 Default Decimal Precision（Decimal数据类型位数）10 当 DECIMAL/NUMBER 数据类型转换成Avro类型数据时，指定的数据位数。 Default Decimal Scale（Decimal 数据类型小数位数）0 当 DECIMAL/NUMBER 数据类型转换成Avro类型数据时，指定的小数点后的位数。

配置步骤如下：

1、新建“QueryDatabaseTable”处理器

2、配置“SCHEDULING”调度时间

这里调度时间配置为99999s,读取数据库，这里读取一次即可，默认0会不间断读取数据库会对服务器造成非常大压力。执行仅支持“Primary”主节点运行。

3、配置“PROPERTIES”

配置“Database Connection Pooling Service”选择创建，在弹出页面中可以按照默认选择直接点击“Create”。

点击“->”继续配置MySQL连接：

在弹出的页面中填入：

连接MysqlURL:

jdbc:mysql://192.168.179.5:3306/mynifi?characterEncoding=UTF-8&useSSL=false

MySQL驱动类：com.mysql.jdbc.DriverMySQL jar包路径：需要提前在NiFI集群各个节点上创建对应目录并上传jar包。连接mysql的用户名和密码。

通过以上配置好连接mysql如下：

配置其他属性如下：

二、配置“ConvertAvroToJSON”处理器

此处理器是将二进制Avro记录转换为JSON对象，提供了一个从Avro字段到JSON字段的直接映射，这样得到的JSON将具有与Avro文档相同的层次结构。输出的JSON编码为UTF-8编码，如果传入的FlowFile包含多个Avro记录，则转换后的FlowFile是一个含有所有Avro记录的JSON数组或一个JSON对象序列(每个Json对象单独成行)。如果传入的FlowFile不包含任何记录，则输出一个空JSON对象。

关于“ConvertAvroToJSON”处理器的“Properties”配置的说明如下：

配置项	默认值	允许值	描述
JSON container options（Json选择）	array	nonearray	如何解析Json对象，none:解析Json将每个Json对象写入新行。array：解析到的json存入JsonArray一个对象
Wrap Single Record（数据库类型）	false	truefalse	指定解析到的空记录或者单条记录是否按照“JSON container options”配置包装对象。
Avro schema（表名）			如果Avro数据没有Schema信息，需要配置。

配置步骤如下：

1、创建“ConvertAvroToJSON”处理器

2、配置“PROPERTIES”

3、连接“QueryDatabaseTable”处理器和“CovertAvroToJSON”处理器

连接好两个处理器后，可以配置“Connection”为负载均衡方式传递数据：

三、配置“SplitJson”处理器

该处理器使用JsonPath表达式指定需要的Json数组元素，将Json数组中的多个Json对象切分出来，形成多个FlowFile。每个生成的FlowFile都由指定数组中的一个元素组成，并传输到关系"split"，原始文件传输到关系"original"。如果没有找到指定的JsonPath，或者没有对数组元素求值，则将原始文件路由到"failure"，不会生成任何文件。

关于“SplitJson”处理器的“Properties”配置的说明如下：

配置项	默认值	允许值	描述
JsonPath Expression（Json表达式）			一个JsonPath表达式，它指定用以分割的数组元素。
Null Value Representation（Null值表示）	empty string	empty stringthe string "null"	指定结果为空值时的表示形式。

配置步骤如下：

1、创建“SplitJson”处理器

2、配置“PROPERTIES”

3、连接“ConvertAvroToJSON”处理器和“SplitJson”处理器

连接后，连接关系选择“success”：

同时配置“ConverAvroToJSON”处理失败的数据自动终止：

四、配置“PutHDFS”处理器

该处理器是将FlowFile数据写入到HDFS分布式文件系统中。关于“PutHDFS”处理器的“Properties”主要配置的说明如下：

配置项	默认值	允许值	描述
Hadoop Configuration Resources（Hadoop配置）		nonearray	HDFS配置文件，一个文件或者由逗号分隔的多个文件。不配置将在ClassPath中寻找‘core-site.xml’或者‘hdfs-site.xml’文件。
Directory（目录）			需要写入文件的HDFS父目录。如果目录不存在，将创建该目录。
Conflict Resolution Strategy(冲突解决)	fail	replaceignorefailappend	指示当输出目录中已经存在同名文件时如何处理。

配置步骤如下：

1、创建“PutHDFS”处理器

2、配置“PROPERTIES”

注意：以上需要在各个NiFi集群节点上创建“/root/test”目录，并且在该目录下上传hdfs-site.xml和core-site.xml文件。

3、连接“SplitJson”处理器和“PutHDFS”处理器

同时设置“SplitJson”处理器中“failure”和“original”数据关系自动终止。

设置“PutHDFS”处理器“success”和“failure”数据关系自动终止：

配置好的连接关系如下：

五、运行测试

1、在MySQL创建库“mynifi”,并且创建表“test1”，向表中插入10条数据

mysql> create database mynifi;Query OK, 1 row affected (0.02 sec)mysql> use mynifi;Database changedmysql> create table test1(id int,name varchar(255),age int );Query OK, 0 rows affected (0.07 sec)mysql> insert into test1 values (1,"zs",18),(2,"ls",19),(3,"ww",20),(4,"ml",21),(5,"tt",22)

2、首先启动“QueryDatabaseTable”处理器观察队列数据

3、单独启动“ConvertAvroToJson”处理器观察队列数据

4、单独启动“SplitJson”处理器观察队列数据

5、单独启动“PutHDFS”处理器观察HDFS对应目录数据

查看数据：

注意：

如果在“QueryDatabaseTable”处理器中设置增属性“Maximum-value Columns”为id，那么每次查询都是大于id的增量数据。如果想要存入HDFS文件为多行而不是一行，可以将“CovertAvroToJson”处理器属性“JSON container options”设置为none，直接解析Avro文件得到一个个json数据，然后直接连接“PutHDFS”处理器即可。

热点在线丨大数据NiFi（十八）：离线同步MySQL数据到HDFS

​离线同步MySQL数据到HDFS

一、配置“QueryDatabaseTable”处理器

二、​​​​​​​配置“ConvertAvroToJSON”处理器

三、​​​​​​​配置“SplitJson”处理器

四、配置“PutHDFS”处理器

五、​​​​​​​​​​​​​​运行测试

1、在MySQL创建库“mynifi”,并且创建表“test1”，向表中插入10条数据

2、首先启动“QueryDatabaseTable”处理器观察队列数据

3、单独启动“ConvertAvroToJson”处理器观察队列数据

4、单独启动“SplitJson”处理器观察队列数据

5、单独启动“PutHDFS”处理器观察HDFS对应目录数据

上一篇:

燕京啤酒回应“1月八次排污超标”：未产生影响_时快讯

下一篇:

最后一页

热点在线丨大数据NiFi（十八）：离线同步MySQL数据到HDFS

燕京啤酒回应“1月八次排污超标”：未产生影响_时快讯

作为手游代理商实际上就是游戏终端玩家和商家的重要枢纽

天天快资讯丨温岭松门派出所绘制“全科网格治理图”提升防控能力

虎与猪的婚姻是否相配 能做夫妻吗|今日热搜

2022年01月04日整理发布：ArkaneAustin的新游戏Redfall将在2022年带来吸血鬼|当前视讯

天天实时：2月22日生意社MIBK基准价为19800.00元/吨

比亚迪(ADR)（BYDDY.US）2月21日收盘报57.52美元/股，跌1.83%_每日热文

天天视讯！孟德斯鸠个人简历_孟德斯鸠简介

亚香股份：我公司投资的高邮农商行每年能取得多少分红主要是取决于对方银行的分红方案

意外！网传杜兆才跑路失败，已登机被神秘人扣押，抓捕画面流出！ 环球最资讯

天天即时看！美银、小摩齐唱衰：欧股反弹快到头了

世界微资讯！北斗+农业机械=更高效的春耕

当前头条：社区服务心得1000字怎么写_社区服务心得1000字

安培定律右手定则_安培定则和右手定则

龆年的近义词

“从小我就有一个航天梦！”汉中9岁女孩绘画作品亮相“天宫”

近期地震变活跃？广东哪些地方易震？破坏性如何？百年数据告诉你 环球讯息

女性哺乳期能喝菊花茶_哺乳期妇女能喝菊花茶吗_每日消息

工匠汇·第三届陇原工匠 | 王一：让无声证据“开口说话” 天天新消息

8月1日起江苏实施新最低工资标准 日工资104.83元

当前关注：2022年中国新能源汽车保有量达1310万辆 同比增长67.13%

第一太平戴维斯与江东新区鸿宝投资总部项目签约|世界今头条

当前报道:陆金贷（大额普惠）贷款逾期5千延迟还款会上征信系统吗

微头条丨仁通档案(838518):第二届董事会第三次会议决议

焦点日报：福朋喜来登酒店品牌首度亮相重庆；博原资本携手北汽福田等设立卡文汽车 | 美通企业日报

【全球报资讯】陆金贷（小额应急）借款逾期26天还不起会影响征信吗

快资讯丨智慧城市板块1月9日涨0.28%，米奥会展领涨，北向资金增持11.64亿元

网贷逾期五天算严重吗 焦点热文

每日观点：2022年澳大利亚皮卡销量，海拉克斯创纪录，长城炮进入行业前八

长寿区轻微工伤怎么计算

环球实时：谁会用抖音桌面端聊天软件？

砂糖橘是上火还是清火的 砂糖橘会加重咳嗽吗

环球消息！山药怎么烧汤 山药玉米排骨汤的做法

“甘南味道”飘香津门 新年档“山海情”藏着真金白银

华特气体(688268.SH)：公司准分子激光气体产品获得美国Coherent(相干)公司合格供应商认证函|世界热推荐

环球视讯！刚生出来的鸡蛋算无菌蛋吗?

2022年终总结：不再用“拼命”来应对极度的不安全感

机构强烈推荐1只个股-更新中 全球快资讯

东瑞股份：初步测算2023年资本开支预计约在10-15亿元

全球信息:ST三圣：石膏制硫酸毛利率受大宗商品价格影响较大 近两年硫酸市场稳中有升 如恢复生产 能有较好预期

上海市东方医院吉安医院招聘编外工作人员公告2023 今日热文

手机内存越大越好？这3点告诉你！|每日简讯

3天7个瓜，曝赵本山回归央视春晚，曝Z姓老艺术家出轨，都是大瓜-环球速讯

三星电子推出智能居家中心 蚕食亚马逊(AMZN.US)居家设备市场份额

“在社区有药、有氧疗，有值得信赖的家庭医生”，宝山区多项举措夯实救治网底！

每日精选：我市开展两节文化旅游市场综合检查

大刘对旧爱吕丽君旧情难忘？发声明称早就不相往来，只是有事相求

环球百事通！口碑神作《末世：开局成为红警指挥官》，直戳人心的场景，有被感动到！

1月3日基金净值：建信稳定得利债券A最新净值1.377，涨0.29%-每日热文

环球视讯！公司前线|承德露露新增“电子商务”概念

每日热点：一加11基本确定：支持杜比全景声+100W闪充，1月4日发布！

1月3日股权激励板块涨幅达2%

红塔红土瑞恒纯债债券基金2023年1月6日开发售

每日看点!水羊股份荣登“2022三湘民营企业百强榜”

大宗交易：易联众成交349.2万元，折价3.00%（12-30） 天天快讯

快资讯丨华通证券国际：给予保利发展增持评级，目标价位21.01元

环球热头条丨霍莱沃（688682）12月29日主力资金净买入225.05万元

宁圣国际(NISN.US)H1营业收入同比增长203% 净利润1440万美元

维科技术(600152.SH)：杨东文以集中竞价完成减持300万股_每日视点

焦点精选！GO 1.20 新功能：多重错误包装

全球观天下！融资丨「碳泽」完成数千万元A轮融资，朗玛峰资本领投

古特雷斯：让2023年成为恢复和平之年

世界短讯！中央财政下达2022年第二笔农业保险保费补贴

离线同步MySQL数据到HDFS

二、配置“ConvertAvroToJSON”处理器

三、配置“SplitJson”处理器

五、运行测试

虎与猪的婚姻是否相配能做夫妻吗|今日热搜

意外！网传杜兆才跑路失败，已登机被神秘人扣押，抓捕画面流出！环球最资讯

近期地震变活跃？广东哪些地方易震？破坏性如何？百年数据告诉你环球讯息

8月1日起江苏实施新最低工资标准日工资104.83元

当前关注：2022年中国新能源汽车保有量达1310万辆同比增长67.13%

网贷逾期五天算严重吗焦点热文

砂糖橘是上火还是清火的砂糖橘会加重咳嗽吗

环球消息！山药怎么烧汤山药玉米排骨汤的做法

“甘南味道”飘香津门新年档“山海情”藏着真金白银

机构强烈推荐1只个股-更新中全球快资讯

全球信息:ST三圣：石膏制硫酸毛利率受大宗商品价格影响较大近两年硫酸市场稳中有升如恢复生产能有较好预期

三星电子推出智能居家中心蚕食亚马逊(AMZN.US)居家设备市场份额

大宗交易：易联众成交349.2万元，折价3.00%（12-30）天天快讯

球王贝利病情继续恶化记者：已在病床上向亲友道别天天讯息

全长915公里新成昆铁路全线通车运营

新鲜玉米糕怎么做玉米糕的做法今头条

出现这个信号下周股市要涨了! 全球滚动

焦点观察：万泰生物(603392.SH)累计回购158.53万股完成回购

国家药监局公布1批次化妆品检出禁用原料焦点热文

孚日股份：该系列产品预计明年二月份上市销售快看点

海兰信：常压潜水系统ADS试验验收成功世界热资讯

新鲜奶椰怎么保存新鲜的椰奶怎么储存

当前讯息：肉肉冬天怎么养才能安全过冬肉肉如何安全过冬

创业黑马(300688.SZ)：子公司拟出资2000万元参设青岛劲远重点投向高端制造领域|当前热讯