位置：首页>> 网络编程>> 网络编程>> sqoop如何指定pg库的模式(方法详解)

sqoop如何指定pg库的模式(方法详解)

作者：华为云开发者社区　　发布时间：2022-09-30 02:52:47　

标签：sqoop,pg库,模式

sqoop是一款用于hadoop和关系型数据库之间数据导入导出的工具。你可以通过sqoop把数据从数据库（比如mysql,oracle）导入到hdfs中；也可以把数据从hdfs中导出到关系型数据库中。sqoop通过Hadoop的MapReduce导入导出，因此提供了很高的并行性能以及良好的容错性。

sqoop适合以下的人群使用：

系统和应用开发者
系统管理员
数据库管理员
数据分析师
数据工程师

说明

使用sqoop导出导入数据非常的方便，但是对于postgresql(简称PG库)时就碰到了一个问题，pg库是三层结构的database——schema——table。如果想导入到某一个模式下，那就需要指定模式才可以。但是sqoop如何指定pg库的模式？

解决办法

碰到问题首先要看文档才对的。文档这里已经指出如何指定pg库的schema了。官方文档地址
文档已经说了，如果向指定schema需要添加-- --schema <name> 但是要注意的是必须在命令行的！！！！最后！！！添加才会生效。

但是，这是命令行的解决办法，如果我们使用的是java呢？在没解决之前，我的java代码是这样写的：

public static boolean ExportCmdInPg(Configuration conf, String tableName, List<String> columns, String hdfsDir,Map<String, String> dbMap) {
try {
LogUtils.logInfoPrint("开始任务",logger);
List<String> list = new ArrayList<>();
list.add("--connect");
list.add(dbMap.get(Constant.DRIVERURL));
list.add("--username");
list.add(dbMap.get(Constant.USER));
list.add("--password");
list.add(dbMap.get(Constant.PASSWORD));
list.add("--table");
list.add(tableName);
list.add("--columns");
list.add(StringUtils.join(columns, ','));
list.add("--fields-terminated-by");
list.add("\t");
list.add("--export-dir");
list.add(hdfsDir);
list.add("-m");
list.add("1");
ExportTool exporter = new ExportTool();
Sqoop sqoop = new Sqoop(exporter);
String[] data = list.toArray(new String[0]);
if (0 == data.length) {
LogUtils.logErrorPrint("sqoop参数为空，请检查ExportCmd方法！",logger);
return false;
}
if (0 == Sqoop.runSqoop(sqoop, data)){
return true;
}
}catch (Exception e){
LogUtils.logErrorPrint("ExportCmd 导入到HDFS出现错误",logger,e);
}
return false;
}

结果当然是不成功。那我哦添加-- --schema 参数试一下

public static boolean ExportCmdInPg(Configuration conf, String tableName, List<String> columns, String hdfsDir,Map<String, String> dbMap) {
try {
LogUtils.logInfoPrint("开始任务",logger);
List<String> list = new ArrayList<>();
list.add("--connect");
list.add(dbMap.get(Constant.DRIVERURL));
list.add("--username");
list.add(dbMap.get(Constant.USER));
list.add("--password");
list.add(dbMap.get(Constant.PASSWORD));
list.add("--table");
list.add(tableName);
list.add("--columns");
list.add(StringUtils.join(columns, ','));
list.add("--fields-terminated-by");
list.add("\t");
list.add("--export-dir");
list.add(hdfsDir);
list.add("-m");
list.add("1");
list.add("-- --schema");
list.add("HERO");
ExportTool exporter = new ExportTool();
Sqoop sqoop = new Sqoop(exporter);
String[] data = list.toArray(new String[0]);
if (0 == data.length) {
LogUtils.logErrorPrint("sqoop参数为空，请检查ExportCmd方法！",logger);
return false;
}
if (0 == Sqoop.runSqoop(sqoop, data)){
return true;
}
}catch (Exception e){
LogUtils.logErrorPrint("ExportCmd 导入到HDFS出现错误",logger,e);
}
return false;
}

结果也是不成功，显示报错不识别-- --schema 。。。为了能够使schema参数生效，废了我不少劲。。。也查了不少资料，但是查到的资料都没有关于java的schema的设置。所以。。。最终正确的解决办法是：

public static boolean ExportCmdInPg(Configuration conf, String tableName, List<String> columns, String hdfsDir,Map<String, String> dbMap) {
try {
LogUtils.logInfoPrint("开始sqoop将oracle的数据导出到HDFS目录",logger);
List<String> list = new ArrayList<>();
list.add("--connect");
list.add(dbMap.get(Constant.DRIVERURL));
list.add("--username");
list.add(dbMap.get(Constant.USER));
list.add("--password");
list.add(dbMap.get(Constant.PASSWORD));
list.add("--table");
list.add(tableName);
list.add("--columns");
list.add(StringUtils.join(columns, ','));
list.add("--fields-terminated-by");
list.add("\t");
list.add("--export-dir");
list.add(hdfsDir);
list.add("-m");
list.add("1");
// 注意这里是--是分开的，源码这里是通过--做判断的
list.add("--");
list.add("--schema");
list.add("HERO");
ExportTool exporter = new ExportTool();
Sqoop sqoop = new Sqoop(exporter);
String[] data = list.toArray(new String[0]);
if (0 == data.length) {
LogUtils.logErrorPrint("sqoop参数为空，请检查ExportCmd方法！",logger);
return false;
}
if (0 == Sqoop.runSqoop(sqoop, data)){
return true;
}
}catch (Exception e){
LogUtils.logErrorPrint("ExportCmd 导入到HDFS出现错误",logger,e);
}
return false;
}

当然你也可能会使用字符串数组，数组方式就要这样写了

// 这里只是举个示例
String[] string = new String[]{"--","--schema","HERO"}

so 问题解决，心情愉快。如果问题不解决，可能会憋一天。。。。

本文分享自华为云社区《【Hadoop】关于Sqoop导出数据到postgresql时schema的设置问题》，作者：Copy工程师。

来源：https://www.cnblogs.com/huaweiyun/p/15832598.html

投稿

sqoop如何指定pg库的模式(方法详解)

说明

解决办法

猜你喜欢