首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

01-PDI(Kettle)简介与安装

)简介与安装呢,这是因为 Kettle在2006年初加入了开源的BI公司Pentaho, 正式命名为:Pentaho Data Integeration,简称“PDI”。...自2017年9月20日起,Pentaho已经被合并于日立集团下的新公司: Hitachi Vantara。...在Kettle中数据的最小单位是数据行(row),数据流中流动的是缓存的行集(rowset)。...在转换的空白处双击,会弹出转换属性 元数据 每个步骤在输出数据行时都有对字段的描述,这种描述就是数据行的元数据。通常包含如下信息。 名称:数据行里的字段名是唯一的 数据类型:字段的数据类型。...作业 作业,负责定义一个完成整个工作流的控制,比如将转换的结果发送邮件给相关人员,因为转换以并行方式执行,所以必须存在一个串行的调度工具来执行转换,这就是Kettle中的作业。

2.4K20

「集成架构」ETL工具大比拼:Talend vs Pentaho

尽管该过程看起来很简单,但该过程涉及通过从多个数据库合并和同步来实现规则或查找表 加载:“L”功能仅遵循一条路线。将数据写入目标数据库。 管理员在没有任何工具的帮助下关联不同数据库是一项艰巨的任务。...Talend与Pentaho之间的主要区别 Talend和Pentaho Kettle在他们自己的市场中是无可挑剔的工具,下面是显着的差异: Talend: Talend是一个开源数据集成工具,而Pentaho...下面我们看到Pentaho Kettle到Talend的显着特征和突出产品: Pentaho水壶比Talend快两倍 与Talend的GUI相比,Pentaho kettle的GUI更易于运行 适应系统...Talend与Pentaho之间的比较表 比较Talend和Pentaho Kettle是一项具有挑战性的任务。不是因为一个人向另一个人挑战的挑战,而仅仅是因为这些工具在彼此之间提供了相似之处。...* Pentaho是一个BI套件,使用名为Kettle的产品进行ETL Talend遵循代码生成器方法,处理数据管理网络 Pentaho Kettle遵循元驱动方法,也是网络中的解释器 结论 - Talend

2.2K21
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Kettle教程一:Kettle简介和Kettle的部署安装

    2、Kettle简介 Kettle是一款国外开源的ETL工具,纯Java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。...Kettle(现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成)。...二 安装Kettle 1、kettle下载地址和教程链接: 官网各个版本下载地址:https://sourceforge.net/projects/pentaho/files/Data%20Integration...JDK的安装过程: 详见文章:https://cloud.tencent.com/developer/article/1774160 配置环境变量,右击【我的电脑】---【属性】-----【高级】---...3、kettle无法创建xml相关步骤,有相关步骤的.ktr文件也打不开 可能是因为路径中包含中文,将整个安装包移动到桌面或其他没有中文字符的路径下,重启Spoon.bat即可。

    80.1K67

    Kettle构建Hadoop ETL实践(二):安装与配置

    Kettle中执行MapReduce报错 Windows上的Kettle在执行Pentaho MapReduce作业项时会报类似下面的错误: ERROR (version 8.3.0.0...作为Pentaho BI项目的一部分,可以在https://sourceforge.net/projects/pentaho/files目录下找到Kettle的所有版本。...与Windows快捷方式类似,点击桌面快捷方式图标右键,在弹出菜单中选择“属性”,点击对话框中的图标,可以选择更换自定义图标。...spoonrc文件中包括的主要属性如下: 通用的设置和默认值:在Spoon里,这些设置在“选项”对话框的“一般”标签下设置。“选项”对话框可以通过主菜单的“工具” -> “选项”菜单项打开。...一个属性是一个等号分隔的键值对,占据一行。键在等号前面,作为以后使用的属性名,等号后面就是这个属性的值。

    7.5K31

    Kettle与Hadoop(二)Kettle安装配置

    spoonrc文件中包括的主要属性如下: 通用的设置和默认值:在Spoon里,这些设置在“Options”对话框的“General”标签下设置。...Kettle可以用JNDI的方式来引用JDBC连接参数,如IP地址、用户认证,这些连接参数最终用来在转换和作业中构造数据库连接对象。...一个属性是一个等号分隔的键值对,占据一行。键在等号前面,作为以后使用的属性名,等号后面就是这个属性的值。...对部署而言,需要确保任何在开发环境中直接或间接使用的共享文件也要在部署环境中可以找到。一般情况下,在两种环境中,共享文件应该是一样的。...在Kettle 4.2及以后的版本中,使用Launcher作为启动类,使用launcher.properties文件配置需要加载的类。

    6.5K50

    07-PDI(Kettle)源码编译8.2.0.0.R版本

    /mirrors_pentaho/maven-parent-poms/tree/8.2.0.0-R/ 可以直接下载,也可以通过git下载,本文通过连接直接下载,下载后,然后解压在E:\kettle中,打开解压后的目录...IDEA 中打开菜单【File - Project Structure】(也可以直接按快捷键:Ctrl+Alt+Shift+S) 在弹出的【Project Structrue】窗口中左侧选择【Modules...】, 然后在中间选择【kettle-ui-swt】模块,然后在右侧切换到【Dependencies】标签页,拖动右侧滚动条至大约快到底部的位置, 找到【Maven:org.eclipse.swt:org.eclipse.swt.win32...) stopping 解决办法: 配置源码目录 在源码目录下新建目录 dist,在 dist 目录中新建子目录 lib 编译成功的发布包 zip位于: E:\kettle\Kettle-8.2.0.0...放在\dist\lib E:\kettle\Kettle-8.2.0.0-R\Kettle-8.2.0.0-R\dist\lib 目录下,然后在把该依赖添加到模块下 这个问题存在于

    2.5K20

    Kettle构建Hadoop ETL实践(三):Kettle对Hadoop的支持

    转换,说明Kettle在实际应用中是怎样利用Hadoop分布式计算框架的。...在工作区左侧的“主对象树”标签中,选择 “DB连接” -> 右键“新建”,对话框中输入如图3-5所示的属性值。 ?...在工作区左侧的“主对象树”标签中,选择“DB连接” -> 右键“新建”,对话框中输入如图3-6所示的属性值。 ?...建立MySQL数据库连接 Kettle中创建数据库连接的方法都类似,区别只是在“连接类型”中选择不同的数据库,然后输入相关的属性,“连接方式”通常选择Native(JDBC)。...Kettle支持在Hadoop中执行基于MapReduce的Kettle转换,还支持向Spark集群提交作业。这里演示的例子都是Pentaho官方提供示例。

    6.3K21

    Kettle与Hadoop(三)连接Hadoop

    在Kettle中配置Hadoop客户端文件 (1)在浏览器中登录Cloudera Manager,选择hive服务,点击“操作”->“下载客户端配置”。得到如图2的文件。 ?...在工作区左侧的树的View标签中,选择 Hadoop clusters -> 右键New Cluster,对话框中输入如图4所示的属性值。...新建数据库连接对象 在工作区左侧的树的View标签中,选择 Database Connections -> 右键New,对话框中输入如图6所示的属性值。 ?...新建数据库连接对象 在工作区左侧的树的View标签中,选择 Database Connections -> 右键New,对话框中输入如图8所示的属性值。 ?...新建数据库连接对象 在工作区左侧的树的View标签中,选择 Database Connections -> 右键New,对话框中输入如图10所示的属性值。 ?

    3.9K21

    一招教你用Kettle整合大数据和Hive,HBase的环境!

    由于水平有限,博客中难免会有一些错误,有纰漏之处恳请各位大佬不吝赐教!...我希望在最美的年华,做最好的自己! 上一篇博客《还不会使用大数据ETL工具Kettle,你就真的out了!》...修改配置文件 我们打开Kettle安装目录下的pentaho-big-data-plugin文件夹 data-integration\plugins\pentaho-big-data-plugin...3.上传集群核心配置文件到本地并替换 因为后续我们需要kettle连接集群的大数据相关组件,所以这一步需要将集群上相关的核心配置文件上传到window本地,在kettle的目录下进行替换操作!...操作路径为: data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514 本步骤中,我们需要替换的配置文件有

    1.8K40

    kettle下载安装使用教程

    Kettle简介 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行, 数据抽取高效稳定。...然后打开Spoon.bat,如图所示: 因为,运行spoon在不同的平台上运行spoon所支持的脚本: Spoon.bat:在Windows平台上运行spoon; Spoon.sh:在Linux、AppleOSX...不是Java虚拟出了问题,修改一下spoon.bat里内存配置: if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xms1024m..." "-Xmx2048m" "-XX:MaxPermSize=256m" 改为: if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS...下载地址:https://dev.mysql.com/downloads/connector/j/ 或者点击直接下载里面包含MySQL和Oracle驱动包 如下图点击直接下载 下载好后,解压该文件将文件夹中的

    12.2K32

    kettle将postgresql数据拷贝到其他postgresql时报“字段 “id“ 的类型为 uuid, 但表达式的类型为 character varying”

    环境: postgresql-12,pentaho kettle为9.1版本 使用kettle将一个postgresql数据拷贝到另外一个postgresql时报“字段 "id" 的类型为 uuid,...但表达式的类型为 character varying”异常,源postgresql中id字段是uuid类型,但是经过kettle后却变成了string类型,处理这个问题相对pg导入cassandra要简单些...,直接设置目的postgresql的连接属性即可: 双击“表输出”节点,弹出如下页面: 点击数据库连接行的“编辑”按钮进入下面配置页面: 在选项中增加命名参数: stringtype=unspecified...即可,当然也可以参考文章https://jonhuster.blog.csdn.net/article/details/109246186中的方法增加一个“Java代码”节点。

    1.5K10

    kettle的基础概念入门、下载、安装、部署

    2、什么是Kettle?   答:Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。     ...Kettle(现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成)。 3、Kettle的结构。 ?.../pentaho/Pentaho%208.2/client-tools/ 9、 Kettle的压缩包下载完毕,解压缩即可。...4)、在Kettle里,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。   5)、数据流有的时候也被称之为记录流。...对于kettle的转换,不可能定义一个执行顺序,因为所有步骤都以并发方式执行:当转换启动后,所有步骤都同时启动,从它们的输入跳中读取数据,并把处理过的数据写到输入跳,直到输入跳里不再有数据,就中止步骤的运行

    10.5K20
    领券