Kettle下载与安装保姆级教程(最新)
作者:亭子下的李子 发布时间:2023-07-29 17:10:41
Kettle简介
Kettle
最早是一个开源的ETL(Extract-Transform-Load的缩写)工具,全称为KDE Extraction, Transportation, Transformation and Loading Environment。后来Kettle重命名为Pentaho Data Integration 。它由
Java
开发,支持跨平台运行,其特性包括:支持100%无编码、拖拽方式开发ETL数据管道;可对接包括传统数据库、文件、大数据平台、接口、流数据等数据源;支持ETL数据管道加入机器学习算法。Kettle
是一个实现ETL开发的一款开发工具,Spoon
是Kettle工具提供的图形化界面。
主要功能
Pentaho Data Integration作为一个端对端的数据集成平台,可以对多种数据源进行抽取(Extraction)、加载(Loading)、数据落湖(Data Lake Injection)、对数据进行各种清洗(Cleasing)、转换(Transformation)、混合(Blending),并支持多维联机分析处理(OLAP)和数据挖掘(Data mining)。
运行环境
Pentaho Data Integration服务器端支持:Windows Server, CentOS, RHEL, Ubuntu
Pentaho Data Integration开发客户端(Spoon)支持:Windows, Ubuntu Desktop, MacOS
Pentaho User Console(浏览器端)支持:Internet Explorer, Chrome, Firefox,
Safari, Edge
Kettle下载
下载地址:
Kettle是一款免安装软件,下载后即可直接运行,Kettle官网
官网的下载速度比较慢,大家也可以从我分享的百度云下载(版本是7.1)
链接: https://pan.baidu.com/s/1gatm2AqffltRrHxhLALcwQ?pwd=abtv
提取码: abtv
Kettle下载安装pdi-ce-7.1.0.0-12教程
kettlespoon脚本之家下载
运行Kettle
因为Kettle是纯java编写,所以启动前要先预装JDK并配置环境变量。
Windows下双击
Spoon.bat
文件运行Kettle,打开spoon图形工具。在Linux、AppleOSX、Solaris平台上,双击
Spoon.sh
运行。
当出现下图所示,则说明启动成功。
导入数据库驱动jar包
看你需要连接什么数据库,就将数据库的驱动jar包放到xxx\pdi-ce-7.1.0.0-12\data-integration\lib
目录下,重启spoon即可。
Oracle/Mysql驱动下载链接:
链接: https://pan.baidu.com/s/13KkL5sAjtoEebs3X7TWoMQ?pwd=n6hf
提取码: n6hf
Kettle使用
配置资源库与数据库
现在让我们重新双击
Spoon.bat
,运行Kettle工具。点击右上角的
connect
标志,出现弹窗(如下图),点击Other Repositories
。
在新的弹窗中选择Database Repository
选项,点击Get Started
。
输入资源库名称(自定义),点击Database Connection
创建数据库连接。
点击创建新的数据库连接。
这里左侧有5种连接方式,按自己需求进行选择,默认选一般;数据库连接名称(自定义);数据类型,什么数据库就选什么,我这里是连接Oracle数据,所以选择Oracle;
连接方式,默认选第一个;最后再将你的数据库连接信息(IP,端口,库名称,用户名和密码)填写上就OK。
填好后,点击测试
按钮,出现如下图的弹窗即连接成功,然后点击确定
按钮。
可以看到刚刚连接的数据库sourceDB,这里我是创建两个数据源,通过点击
新增
按钮可以创建多个数据源连接。选中数据源,即可对其进行编辑,删除操作。
最后点击
Back
返回。
点击Finish
按钮,即可。
创建成功,选中Connect Now
。
进入登录页面,默认是admin用户,密码也是admin,启动后可以修改用户密码或添加其他用户。
注意事项:这里在配置数据源时,虽然成功了,但是在后面创建作业选择数据库时,可能出现刚刚配置的数据库不见了,可以在创建作业后,再重新配置一下数据库(如下图)。具体原因还不清楚
修改、添加用户信息
点击工具
–>资源库
–>探索资源
按钮,或者直接点击下图红色框中的图标。
选择安全
按钮,即可新增、编辑、删除用户信息。
好啦,以上就是Kettle的安装配置教程,后面会再出一个Kettle使用教程。
来源:https://blog.csdn.net/weixin_43407520/article/details/123593474
猜你喜欢
- 如何修改被表单引用的ASP页面?formhandler.asp<HTML><BODY BGCOLOR="
- 如下所示:import numpy as npimport matplotlib.pyplot as pltx = np.linspace(
- 深底色风格的页面设计很受欢迎,它可以创造出别致优雅、极富创造力的效果。深底色设计适用于许多网站类型,但并非所有。这种风格应该在恰当的条件下使
- return 语句用于退出函数,向调用方返回一个表达式。执行到 return 语句时,会退出函数,return 之后的语句不再执行。如:de
- 对于使用已经训练好的模型,比如VGG,RESNET等,keras都自带了一个keras.applications.imagenet_util
- 下面演示了,当asp程序发生错误时,屏蔽系统默认的错误显示,而显示自定义的错误信息。<%@ LANGUAGE="V
- 需求对于部署在阿里云上的重要系统一般是不让其他人访问的,所以会在负载均衡(SLB)上加上访问控制列表。而使用ASDL拨号上网的宽带来说一般公
- 这是一条颠覆常规的插入方法,一条INSERT语句可以完成向多张表的插入任务。小小地展示一下这种插入方法。1.创建表T并初始化测试数据,此表作
- <script type="text/javascript"> // Close HTML Tags ---
- 参考: Smashing magzine翻译+整理: Demix当完成一项前端的工作之后,许多人都会忘记该项目的结构与细节。然而代码并不是马
- <%'asp事务处理。'测试数据库为sql server,服务器为本机,数据库名为test,表名为a,两个字段id(i
- 在我们的`` current_datetime`` 视图范例中,尽管内容是动态的,但是URL ( /time/ )是静态的。 在 大多数动态
- tensorflow里面提供了实现图像进行裁剪和填充的函数,就是tf.image.resize_image_with_crop_or_pad
- 在一个规范化的研发流程中,一般遵循如下流程:开发阶段:研发功能或者修复bug,在本地自测。代码审核阶段:提交代码,并请求团队内人员做code
- 我通过如下的一段程序发送post请求:import urllib3pool = urllib3.connection_from_url(
- 1. 引言如果能够将我们的无序数据快速组织成更易读的格式,对于数据分析非常有帮助。 Python 提供了将某些表格数据类型轻松转换为格式良好
- 一、计数排序计数排序(Counting sort)是一种稳定的排序算法算法的步骤如下:找出待排序的数组中最大和最小的元素统计数组中每个值为i
- 反射反射即想到4个内置函数分别为:getattr、hasattr、setattr、delattr 获取成员、检查成员、设置成员、
- (1)、函数y = sin(x)(2)、数据准备#数据准备X=np.arange(-np.pi,np.pi,1) #定义样本点X,从-pi到
- Python内置了一些非常有趣、有用的函数,如:filter、map、reduce,都是对一个集合进行处理,filter很容易理解用于过滤,