基于idea操作hbase数据库并映射到hive表
作者:思达滴 发布时间:2024-01-19 23:22:57
依赖条件:需要有Hadoop,hive,zookeeper,hbase环境
映射:每一个在 Hive 表中的域都存在于 HBase 中,而在 Hive 表中不需要包含所有HBase 中的列。HBase 中的 RowKey 对应到 Hive 中为选择一个域使用 :key 来对应,列族(cf:)映射到 Hive 中的其它所有域,列为(cf:cq)
配置映射环境
一:先关闭所有服务
[root@siwen ~]# stop-hbase.sh -----关闭hbase
[root@siwen ~]# zkServer.sh stop -----关闭zookeeper
[root@siwen ~]# stop-alll.sh -----关闭hadoop
二:配置文件
1,修改host文件:
C:\Windows\System32\drivers\etc在此目录下的hosts文件把此机器的ip和hostname加入进去
2,修改hive-site.xml
[root@siwen ~]# cd /opt/soft/hive312/conf/
[root@siwen conf]# vim ./hive-site.xml
加入下面几行
<property>
<name>hive.zookeeper.quorum</name>
<value>192.168.255.159</value>
</property>
<property>
<name>hbase.zookeeper.quorum</name>
<value>192.168.255.159</value>
</property>
<property>
<name>hive.aux.jars.path</name>
<value>file:///opt/soft/hive312/lib/hive-hbase-handler-3.1.2.jar,file:///opt/soft/hive312/lib/zookeeper-3.4.6.jar,file:///opt/soft/hive312/lib/hbase-client-2.3.5.jar,file:///opt/soft/hive312/lib/hbase-common-2.3.5-tests.jar,file:///opt/soft/hive312/lib/hbase-server-2.3.5.jar,file:///opt/soft/hive312/lib/hbase-common-2.3.5.jar,file:///opt/soft/hive312/lib/hbase-protocol-2.3.5.jar,file:///opt/soft/hive312/lib/htrace-core-3.2.0-incubating.jar</value>
</property>
3,拷贝jar包
①将hbase235/lib目录下所有的jar包都拷贝到hive下面
[root@siwen conf]# cp /opt/soft/hbase235/lib/* /opt/soft/hive312/lib/
是否覆盖内容的时候,可以输入n,不覆盖;或者覆盖了也没问题
②统一guava文件
[root@siwen lib]# find ../lib/guava* -------查看所有的guava文件
[root@siwen lib]# rm -rf ../lib/guava-11.0.2.jar -------删除11版本的
[root@siwen conf]# cd /opt/soft/hbase235/lib/
[root@siwen lib]# pwd
/opt/soft/hbase235/lib
[root@siwen lib]# cp /opt/soft/hive312/lib/guava-27.0-jre.jar ./ -----把hive的guava文件拷贝给hbase
三:启动服务
#启动hadoop
[root@siwen lib]# start-all.sh
#启动zookeeper
[root@siwen lib]# zkServer.sh start
#启动hbase
[root@siwen lib]# start-hbase.sh
#启动hive
[root@siwen lib]# nohup hive --service metastore &
[root@siwen lib]# nohup hive --service hiveserver2 &
开始使用idea创建maven工程
在pom.xml 里面添加依赖
<dependency>
<groupId>org.apache.hbase</groupId>
<artifactId>hbase-client</artifactId>
<version>2.3.5</version>
</dependency>
<dependency>
<groupId>org.apache.hbase</groupId>
<artifactId>hbase-server</artifactId>
<version>2.3.5</version>
</dependency>
1,编写初始化方法:配置hbase信息,连接数据库
//定义一个config,用于获取配置对象
static Configuration config = null;
//获取连接
private Connection conn = null;
Admin admin = null;
@Before
public void init() throws IOException {
//配置hbase信息,连接hbase数据库
config = HBaseConfiguration.create();
config.set(HConstants.HBASE_DIR, "hdfs://192.168.255.159:9000/hbase");
config.set(HConstants.ZOOKEEPER_QUORUM, "192.168.255.159");
config.set(HConstants.CLIENT_PORT_STR, "2181");
//hbase连接工厂
conn = ConnectionFactory.createConnection(config);
//拿到admin
admin = conn.getAdmin();
}
2,编写关闭方法
@After
public void close() throws IOException {
System.out.println("执行close()方法");
if (admin!=null)
admin.close();
if (conn!=null)
conn.close();
}
3,编写创建命名空间方法
@Test
public void createNameSpace() throws IOException {
NamespaceDescriptor bigdata = NamespaceDescriptor.create("bigdata").build();
#执行创建对象
admin.createNamespace(bigdata);
}
4,编写创建表的方法
@Test
public void createTable() throws IOException {
//创建表的描述类
TableName tableName = TableName.valueOf("bigdata:student");
//获取表格描述器
HTableDescriptor desc = new HTableDescriptor(tableName);
//创建列族的描述,添加列族
HColumnDescriptor family1 = new HColumnDescriptor("info1");
HColumnDescriptor family2 = new HColumnDescriptor("info2");
desc.addFamily(family1);
desc.addFamily(family2);
admin.createTable(desc);*/
5,编写查看表结构的方法
@Test
public void getAllNamespace() throws IOException {
List<TableDescriptor> tableDesc = admin.listTableDescriptorsByNamespace("bigdata".getBytes());
System.out.println(tableDesc.toString());
}
6,编写插入数据方法
@Test
public void insertData() throws IOException {
//获取表的信息
Table table = conn.getTable(TableName.valueOf("bigdata:student"));
//设置行键
Put put = new Put(Bytes.toBytes("student1"));
//设置列的标识以及列值
put.addColumn("info1".getBytes(), "name".getBytes(), "zs".getBytes());
put.addColumn("info2".getBytes(), "school".getBytes(), "xwxx".getBytes());
//执行添加
table.put(put);
//使用集合添加数据
Put put2 = new Put(Bytes.toBytes("student2"));
put2.addColumn("info1".getBytes(), "name".getBytes(), "zss".getBytes());
put2.addColumn("info2".getBytes(), "school".getBytes(), "xwxx".getBytes());
Put put3 = new Put(Bytes.toBytes("student3"));
put3.addColumn("info1".getBytes(), "name".getBytes(), "zsr".getBytes());
put3.addColumn("info2".getBytes(), "school".getBytes(), "xwxx".getBytes());
List<Put> list = new ArrayList<>();
list.add(put2);
list.add(put3);
table.put(list);
}
7,编写查询指定数据的方法
#查询student1的信息
@Test
public void queryData() throws IOException {
Table table = conn.getTable(TableName.valueOf("bigdata:student"));
Get get = new Get(Bytes.toBytes("student1"));
Result result = table.get(get);
byte[] value = result.getValue(Bytes.toBytes("info1"), Bytes.toBytes("name"));
System.out.println("姓名:"+Bytes.toString(value));
value = result.getValue(Bytes.toBytes("info2"), Bytes.toBytes("school"));
System.out.println("学校:"+Bytes.toString(value));
}
8,编写扫描数据的方法(所有数据)
@Test
public void scanData() throws IOException {
Table table = conn.getTable(TableName.valueOf("kb21:student"));
Scan scan = new Scan();
ResultScanner scanner = table.getScanner(scan);
for (Result result : scanner) {
byte[] value = result.getValue(Bytes.toBytes("info1"), Bytes.toBytes("name"));
System.out.println("姓名:"+Bytes.toString(value));
value = result.getValue(Bytes.toBytes("info2"), Bytes.toBytes("school"));
System.out.println("学校:"+Bytes.toString(value));
System.out.println(Bytes.toString(result.getRow()));
}
}
9,编写删除表的方法
@Test
public void deleteTable() throws IOException {
//先禁用
admin.disableTable(TableName.valueOf("bigdata:student"));
//再删除
admin.deleteTable(TableName.valueOf("bigdata:student"));
}
创建外部表
---------主要外部表的字段需要和Hbase中的列形成映射
create external table student(
id string,
name string,
school string
)
stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with
serdeproperties ("hbase.columns.mapping"=":key,info1:name,info2:school")
tblproperties ("hbase.table.name"="bigdata:student");
select * from student
来源:https://blog.csdn.net/m0_73469590/article/details/129548788


猜你喜欢
- 本文实例讲述了Python mutiprocessing多线程池pool操作。分享给大家供大家参考,具体如下:python — mutipr
- 在很多情况下,我们可能需要控制某一段代码只执行一次,比如做某些初始化操作,如初始化数据库连接等。 对于这种场景,go 为我们提供了 sync
- 一、新建一个用户老板:给我新建一个用户joytom,密码设置为123321,并任意远程主机都能访问,五分钟完成,实现不了就给我提桶走人!小王
- 我们经常会发现网页中的许多数据并不是写死在HTML中的,而是通过js动态载入的。所以也就引出了什么是动态数据的概念,动态数据在这里指的是网页
- 前言JSON类型是MySQL5.7.8中新加入的一种数据类型,并在后续版本尤其是MySQL8.0中得到了大幅增强,现在的JSON类型的功能十
- 1.SocketServer模块编写的TCP服务器端代码Socketserver原理图服务端:import SocketServer &nb
- 这篇文章主要介绍了如何基于python生成list的所有的子集,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,
- 前言今天我看到线性规划模型开头的介绍,特别不错,因此,我把它记录下来了,分享给大家在工程技术、经济管理、科学研究、军事作战训练及日常生活等众
- 本文实例讲述了python实现中文转换url编码的方法。分享给大家供大家参考,具体如下:今天要处理百度贴吧的东西。想要做一个关键词的list
- isset和is_null啥区别,看手册上讲的话, isset和is_null的功能几乎完全”相反的一样”..是不是isset就是一个is_
- 使用Opencv打开笔记本电脑摄像头报错近期要做一个下位机上发图像数据给上位机的任务,调试时自己写了一个客户端获取笔记本电脑的摄像头视频数据
- 本文为大家分享了pygame游戏之旅的第10篇,供大家参考,具体内容如下通过获取鼠标的位置然后进行高亮显示:mouse =pygame.mo
- 在numpy中的ndarry是一个数组,因此index就是位置下标,注意下标是从0开始增加:在插入时使用np.insert(),在末尾添加时
- 本文实例为大家分享了python实现随机漫步的具体代码,供大家参考,具体内容如下编写randomwalk类from random impor
- linux中,可以使用指令pip install lmdb安装lmdb包。----lmdb 数据库文件生成增 改 删查1、生成一个空的lmd
- 刚才运行了一段代码,来查看Request.ServerVariables里面有多少值,看了一下,共50个!代码<%=Request.S
- 报错信息:Job for mysqld.service failed because the control process exited
- <html><head><meta http-equiv="Content-Type" c
- 在介绍之前,首先一个概念明确一个共识:没有攻不破的网站,只有值不值得。这意思是说,我们可以尽可能的提高自己网站的安全,但并没有绝对的安全,当
- 导入excel文件前言两种导入文件的方法:form表单和el-upload第一种方法:form表单一、文件上传的三要素是什么?文件上传的三要