腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
1
回答
如何删除ODI11g中的最后一条etl_date记录?
oracle
、
oracle11g
、
etl
我是ODI 11g的新手,我使用ODI 11g进行开发。到目前为止一切都很好。但是,我想从最终表格中删除最近三个月(etl_date)。我如何使用ODI做到这一点呢? DELETE FROM MYTABLE WHERE ETL_DATE IN (TO_DATE(#ETL_DATE, 'DDMMYYYY'), ADD_MONTHS(TO_DATE(#ETL_DATE, 'DDMMYYYY'), -1), ADD_MONTHS(TO_DATE(#ETL_DATE, 'DDMMYYYY'), -2));
浏览 0
提问于2018-04-09
得票数 0
1
回答
协作开发GoodData ETL的推荐实践是什么?
gooddata
我们有一个同时从事GoodData ETL工作的团队,并希望在将这些ETL发布到生产之前遵循代码审查的传统软件开发实践。我们试图将这些ETL保存在基于Git的版本控制系统中,并使用pull请求进行代码审查,但不幸的是,存储ETL的那些XML文件并不那么人性化。 有什么建议如何有效地审查其他人对ETL的更改吗?CloudConnect是否为此提供了任何工具,或者可能提供了一些特殊的比较查看器,可以更好地解析这些ETL?
浏览 3
提问于2016-01-13
得票数 1
1
回答
symfony2 - symfony网站中的人才ETL
symfony
、
etl
我需要开发一个比较价格与symfony,ETL,ESB ...application导入CSV文件,并在数据库中存储内容(MySQL)的应用程序。我开始阅读Talend (一种开源ETL),但我在我的网站上找不到好的教程来教授这个ETL的实现。所以你有什么想法。 谢谢你。
浏览 3
提问于2015-03-27
得票数 0
3
回答
SSIS - Polling Files文件夹和触发器ETL包
sql-server-2008
、
ssis
需要建议,请参见下面的场景 我们已经开发了1个ETL包,可以一次处理5个文件(通常需要1分钟)。我们希望在早上(也就是早上6点到7点之间),几乎有100+文件可以到达PROCESSING文件夹。 我正在努力设计/开发某种轮询机制,它会继续查找文件,如果它们到达,它将触发ETL包(通过SQL Server代理作业触发)。 如何进行轮询,然后触发ETL Package - is Service Broker将有所帮助 我是SSIS的新手,所以需要建议。需要在SQL Server中找到解决方案,而不是开发.net应用程序来轮询文件夹,然后触发作业 问候
浏览 0
提问于2013-03-07
得票数 1
回答已采纳
3
回答
ETL工艺设计与性能
c#
、
sql
、
database
、
etl
我正在为一个使用C#的数据仓库开发一个ETL过程,它既支持Server也支持Oracle。在开发期间,我一直在编写将数据从一个数据库同步到另一个数据库的存储过程。存储过程代码很难看,因为它涉及动态SQL。它需要构建SQL字符串,因为我们有动态数据库名。 我的团队负责人希望使用C#代码来执行ETL。我们有代码生成,当数据库定义更改时自动生成新的类。这也是我决定不使用犀牛ETL的原因。 以下是正反两面: 存储过程: 优点: 快速加载过程中,所有事情都由数据库处理。 部署简单,无需编译。 缺点 由于动态SQL,可读性较差。 当数据库定义更改时,需要同时维护to和PL/SQL脚
浏览 1
提问于2010-12-02
得票数 6
回答已采纳
1
回答
如何减少Informatica ETL因更改表名和列名而导致的返工
etl
、
informatica-powercenter
目前,我们已经开发了很多ETL,底层的表名和列名将会改变。例如,物理名称使用缩写名称,而不是全名,因为我们希望在Oracle上部署,但现在,我们决定仅使用SQL Server,因此讨论了在数据库级别使用全名。这将影响我们已经开发的ETL。 我只是想知道是否有任何有效的方法将ETL重新映射到更改后的列名?我可以提供一个带有新旧表名/列名作为输入的文件。 在这方面的任何帮助都将非常感谢。
浏览 0
提问于2011-05-11
得票数 2
回答已采纳
1
回答
验证用户是否具有对表的读取访问权限
sql-server
、
sql-server-2012
、
permissions
、
ssis-2012
我正在开发一个ETL,它的提取步骤必须从表中读取数据。 有时,我的用户对该表的访问被取消。因此,为了避免ETL失败,在读取表之前,我必须验证是否有权限这样做。如果没有,我将跳过提取步骤并运行其余的ETL。 如果我的用户拥有对表的读取权限,那么正确的验证方法是什么?
浏览 0
提问于2014-11-24
得票数 4
回答已采纳
1
回答
如何使用argparse进行强制参数组合?
python
、
argparse
我正在用Python开发一个CLI工具,它有很多功能。我希望通过命令行调用这些独立的功能 parser = argparse.ArgumentParser() group_check = parser.add_argument_group('Execute State Check') group_check.add_argument('-c', '--check-state', action='store_true') group_etl = parser.add_argument_grou
浏览 11
提问于2019-09-11
得票数 0
回答已采纳
2
回答
部署后如何更改SSIS包中的连接?
sql-server
、
ssis
刚开始在工作中开发SSIS ETL包,我有点陷入了思考如何解决这个问题以及其他人如何解决它的问题。因为我是SSIS的新手,所以我必须向这里的专家请教。因此,我正在创建一个SSIS ETL包,在开发环境中创建源和目标连接(主要是关系数据库),这意味着源和目标连接是到开发数据库的。一切都很好。问题是,当我完成SSIS包、构建它、创建清单和部署时,我意识到包将失败,因为我已经在生产环境中部署了包,这意味着源和目标连接是到生产环境中的生产数据库。 所以我的问题是,如何在开发阶段或使用开发源和目标连接的开发环境中创建ssis ETL包,以便能够将包部署到源和目标连接不同的不同环境中? 我正在使用sql
浏览 6
提问于2015-08-20
得票数 0
1
回答
Apache笔记本部署
apache-spark
、
pyspark
、
apache-zeppelin
我刚开始使用PySpark进行ETL开发,我在Apache笔记本上编写了我的脚本。我很好奇部署过程的典型流程是什么?如何将您的代码从Zeppelin笔记本转换到ETL管道? 谢谢!
浏览 0
提问于2019-06-25
得票数 0
回答已采纳
1
回答
DBT:为dev/stage/prod环境服务的相同代码
informatica
、
dbt
我试图用相同的代码来设置DBT,用于开发/阶段/产品环境,我们的dev数据库类似于EDW_TEL_ETL_DB _TEL_ETL_DB_DV1/EDW_TEL_ETL_DB_DV3,而stage/qa数据库类似于EDW_TEL_ETL_DB_TS1/EDW_TEL_ETL_DB_ as _3,为了实现这个目的,我有如下sources.yml: sources: - name: EDW_TEL_ETL_DB_SS database: | {%- if target.name == "dev1" -%} EDW_TEL_ETL_DB{{ env_
浏览 8
提问于2022-05-15
得票数 0
1
回答
测试ETL管道的最佳实践是什么?
reference-request
、
etl
在传统的软件开发实践中,在投入生产之前,一段代码必须经过不同阶段的测试(单元测试、集成测试、用户验收测试),以保证软件的稳定性。 ETL管道作为一段代码,也应该通过这些测试步骤来构建一个健康的系统。 然而,由于ETL工艺的性质,传统的测试技术可能不适用。 是否有专门针对ETL管道测试的参考或指导方针?
浏览 0
提问于2019-05-07
得票数 4
1
回答
DataStage:运行低级套接字连接
datastage
我是Unix开发人员,试图帮助一个数据传输开发人员,所以我的水族馆。 数据传送过程连接到在unix服务器上承载金融事务的数据库。有一个将金融交易迁移到会计系统的数据存储过程。由于某种原因,ETL开发人员已经指定,在接收新的金融事务时,他们不能运行一个或多个特定的ETL,并且指定了将事务插入DB be停止的过程。 我的java极客认为,让一些进程检查在端口55555运行的服务将是完美的。但是,我们无法找到一种数据存储方法来创建到要检查的端口的套接字连接。我不做数据存储,所以我不知道如何解决它的局限性。 ETL开发人员认为,将进程的上下状态插入到特定表中的每分钟运行的cron脚本都是完美的。我认为
浏览 1
提问于2017-06-20
得票数 0
回答已采纳
3
回答
AttributeError:“NoneType”对象没有属性“接收器”
python
、
oop
、
attributeerror
我需要开发一个演示的ETL系统,该系统需要按照以下流畅的python格式运行 ETL().source(source_args).sink(sink_args).run() 之后,我在类中创建了一个函数class ETL()和函数sink。代码如下: class ETL: def source(self, data_source: str): if data_source == 'Simulation': simulation() elif data_source == 'File':
浏览 0
提问于2021-06-25
得票数 0
回答已采纳
2
回答
带有参数的启动etl的图形应用程序
etl
、
talend
、
app-launcher
我使用Talend来开发ETL,问题是我需要制作接口来运行它们。 使用Talend,我只能使用命令行运行它,是否存在任何应用程序(web,如果可能)来启动ETL?这个应用程序非常简单,我只需要在应用服务器中使用一些参数运行命令。
浏览 1
提问于2011-08-12
得票数 0
1
回答
ETL处理中记录机制的最佳实践
azure
、
pyspark
、
etl
、
azure-databricks
、
azure-log-analytics
在ETL处理中记录机制的最佳实践是什么? 实际上,我们正在开发ETL应用程序.in,我们希望使用日志分析来记录数据,任何人都可以为行业标准的日志记录机制提供最佳实践。 我已经用谷歌搜索了以下链接: 任何帮助都是非常感谢的。 提前感谢
浏览 2
提问于2020-08-05
得票数 0
1
回答
如何在WSO2中使用ETL?
wso2
、
wso2esb
我们正在开发WSO2企业服务总线,通过代理将一些值存储到数据库中。现在,我们需要使用ETL将数据从一个DB移动到reporting DB。有没有可以使用ETL的插件?如果是这样,如何使用该插件?请注意,这两个数据库都是PostgreSQL格式。
浏览 1
提问于2016-03-22
得票数 0
1
回答
用SQL实现复杂的计算,或者更确切地说使用ETL?
php
、
sql
、
doctrine
、
business-intelligence
、
domain-model
我们目前正在开发一个用于财务分析的web应用程序,使用PHP (ZendFramework2)和Doctrine作为ORM工具(MySQL数据库)。复杂的财务计算是在服务器端进行的,因为客户端必须尽可能简单。数据应该是几乎实时的,因为用户正在实时地输入数据。所有用户数据将立即传送到服务器。 对于财务计算,我们必须使用自定义筛选和数据聚合连接多个表。业务逻辑和计算相当复杂。 因此,我们关心的是将业务逻辑和规则混合到SQL语句中(封装原则)。即使使用ORM工具,也会有一些语句使用本机SQL,不容易理解/修改。 我们考虑使用ETL或BI软件进行数据处理。但是大多数ETL工具和BI软件都是用Java编
浏览 3
提问于2015-05-26
得票数 0
回答已采纳
1
回答
为存储过程中的所有语句设置锁定粒度- Microsoft SQL Server 2000
sql-server-2000
、
locking
我正在开发一个具有批处理功能的ETL应用程序。更新的并发性很低(即没有)。我希望通过锁定整个表来避免粒度锁和锁升级带来的开销。 我希望避免在每条语句中都指定TABLOCK。有没有办法在存储过程的顶部设置锁定粒度,以便每个语句自动获得所使用的每个表上的表锁?共享或独占都无关紧要,尽管共享是首选;ETL将在夜间运行,不会加载特别查询,并且在ETL完成时触发一批报告之前运行。 谢谢!
浏览 4
提问于2010-10-06
得票数 0
1
回答
通过SQL代理作业执行SSIS包的安全最佳实践
sql-server
、
security
、
ssis
、
sql-server-agent
我们正试图控制服务器上系统管理员的数量,以及我们遇到的一个与SQL Agent安全有关的问题--特别是在SSIS作业和ETL团队方面。我理解非sysadmins在默认情况下不能执行SSIS作业步骤,并且可以创建代理以允许这样做,但我仍然在努力实现。 这个职位谈到使用代理来允许非系统管理员管理和维护SQL作业,但为我的每个ETL开发人员创建凭据,并在密码更改时(根据我们的AD策略)通过屏幕共享来维护这些凭据,充其量是笨拙的。即使只有少数几个开发人员,这也很快就站不住脚了。我不能因为某人的密码过期而导致工作失败,而且我也不希望依赖于人们记住,每当他们的密码更改时,都需要更新凭证。 我很好奇其他商店
浏览 0
提问于2021-05-19
得票数 1
3
回答
如何使用纯SQL进行探索性数据分析?
sql
、
ssis
、
data-mining
、
etl
、
data-quality
我是一名ETL开发人员,使用不同的工具完成ETL任务。在我们的所有项目中都出现了同样的问题:在构建数据仓库之前和为数据移动构建ETL之前,数据概要分析的重要性。通常我会做数据分析(比如发现坏数据、数据异常、计数、不同的值等)。使用纯SQL是因为ETL工具没有为这些提供一个很好的替代方案(我们的工具中有一些数据质量组件,但它们并不是那么复杂)。一种选择是使用或等工具来实现这种。但是,如果有数百万行的数据,这些类型的工具通常是不可用的,或者不符合条件。 如何使用SQL进行这种分析?有没有可用的助手脚本?如何在数据清理和ETL之前进行这种探索性数据分析?
浏览 1
提问于2012-10-11
得票数 2
回答已采纳
3
回答
基于文本文件输入元数据进行DB插入
monitoring
、
pentaho
、
etl
、
pentaho-spoon
、
pentaho-data-integration
我正在开发一个ETL,必须做一些例程来监视它。 在开始时,我必须对DB进行INSERT,以创建一个记录,通知文件名并启动进程日期时间。此查询将返回记录的PK,并且必须存储它。当该文件的ETL完成时,我必须更新该记录,通知ETL已成功完成及其结束处理日期时间。 我使用文本文件输入查找与其regex匹配的文件,并将其“附加输出字段”添加到流中。但是,我找不到只为第一条记录运行并为INSERT执行SQL命令的组件。
浏览 5
提问于2017-08-28
得票数 0
回答已采纳
1
回答
当类的方法被调用N次时重新初始化它
python
我正在开发一个基于Selenium的web刮刀,它看起来像这样: class Scraper: def __init__(self): pass def __enter__(self): self.driver = webdriver.Chrome( service=Service(ChromeDriverManager().install()), ) return self def extract(self): # does some extrac
浏览 1
提问于2022-05-24
得票数 0
回答已采纳
1
回答
为数据仓库捕获OLTP更改的最佳方法:创建/更新列或CDC
sql-server
、
data-warehouse
、
sql-server-2017
、
change-data-capture
将ETL数据移动到数据仓库的更好方法是什么?在OLTP应用程序上创建/更新日期,还是更改数据捕获(CDC)? 鉴于这两个人都被允许在一个系统和资源不是一个问题,我认为疾病预防控制中心是更好的。有时,我看到软件应用程序/开发人员在创建/更新列不能工作的地方出错。只是想有人验证一下你的想法。 对Kimball提到的事情也很好奇,似乎他更喜欢这里的CDC? https://www.kimballgroup.com/2007/10/subsystems-of-etl-revisited/ https://www.kimballgroup.com/2009/10/six-key-decisions-fo
浏览 0
提问于2018-12-25
得票数 1
回答已采纳
5
回答
ETL质量保证--源到目标映射是否考虑到测试阶段的输入?
etl
在我的工作地点,我们一直在争论源到目标的映射是否应该是QA执行的测试阶段的输入。 开发人员坚持QAs应该遵循需求文档,而QAs坚持认为,由于需求通常是用业务语言编写的,并且在实现过程中需要由开发人员解释,除了需求之外,还需要源到目标映射,以便能够准确地执行测试。 对于源到目标映射是否是测试阶段的输入,是否存在一个普遍的行业共识?我还要澄清的是,我们的开发人员确实会生成映射,有时是在完成ETL工作期间,有时是在完成ETL工作之后,他们经常反对共享这些映射。
浏览 0
提问于2017-12-06
得票数 3
2
回答
.NET ETL流程
.net
、
etl
、
pentaho
、
rhino-etl
首先是一些背景知识;我们正在开发一个数据仓库,并研究在我们的ETL过程中使用什么工具。团队非常以开发人员为中心,每个人都对C#了如指掌。到目前为止,我已经看过RhinoETL,Pentaho (水壶),Astrix Centerprise。SSIS的出现有许多原因,这些原因超出了这个问题的范围。 在这个时候,我倾向于像RhinoETL这样更面向开发者的东西,因为对于一群开发人员来说,它似乎是阻力最小的途径。其他更多面向视觉设计者的产品是否带来了RhinoETL没有的东西?在评估这些ETL工具时,有没有什么我应该特别注意的事情?有没有其他我们也应该调查的工具?
浏览 3
提问于2011-10-04
得票数 7
1
回答
AWS Glue -版本控制和设置以进行持续集成
github
、
aws-glue
、
aws-codepipeline
、
aws-code-deploy
、
aws-codecommit
我们正在为AWS胶ETL工艺建立CI / CD过程。现有的ETL流程包含以下AWS Glue组件--Crawler、目录中的已注册表、作业、触发器和工作流。 显然,第一步是建立代码存储库,并将上述不同组件的现有构件链接到存储库,这在理想情况下需要帮助开发人员执行签入和从工具(类似于ADF和Databricks)的请求。然而,据我们所探索,AWS胶并没有集成到任何源代码存储库中,除非我们遗漏了一些东西,否则它可以直接提供这个特性。 因此,设置CI环境的方法是什么(我还没有讨论CD),下面的链接为CI/CD提供了一个参考: 但是,它在开始时提到,用于部署ETL作业的AWS CloudFormat
浏览 6
提问于2022-06-13
得票数 0
0
回答
如何测试Talend ETL
unit-testing
、
automated-tests
、
etl
、
talend
我想知道如何在Talend上开发的ETL上执行单元测试。我的ETLs执行文件读取、文件生成以及与SAP系统的连接。(读/写IDOC)。有什么工具吗?开发一个小型的java测试框架需要什么?
浏览 3
提问于2017-01-06
得票数 1
回答已采纳
1
回答
kubernetes上的可伸缩弹簧批处理作业
java
、
kubernetes
、
spring-batch
、
spring-cloud
我正在使用spring开发一个ETL批处理应用程序。我的ETL过程从一个基于分页的REST中获取数据,并将其加载到Google中。我想在kubernetes集群中部署这个批处理应用程序,并希望利用pod的可伸缩性特性。我理解弹簧批支持水平和垂直缩放。我有几个问题:- 1)如何在kubernetes上部署这个ETL应用程序,以便使用远程分块/远程分区按需创建pod? 2)我假设会有主舱和按负荷分配的不同的从属荚。这是正确的吗? 3)还提供了一个kubernetes批处理API。使用kubernetes批处理API或使用Spring feature.Whis选项是更好的选择吗?
浏览 12
提问于2017-09-14
得票数 6
1
回答
语言工作者如何使用Python在Azure函数中工作?
python
、
multithreading
、
azure
、
asynchronous
、
azure-functions
我正在开发一个使用Azure函数的ETL项目,在这个项目中,我从blob存储中提取数据,转换Python和熊猫中的数据,并使用熊猫to_sql()加载数据。我试图通过使用异步和语言工作者来提高这个过程的效率。 我有点困惑,因为我的印象是异步使用一个线程工作,但是Azure函数文档说,如果您更改配置,并且即使是不使用异步关键字的方法也可以在线程池中运行,则可以使用多个语言工作人员。 这是否意味着如果我不使用异步关键字,那么我的方法将使用语言工作者并发运行吗?我是否必须使用异步操作来使用语言工作者? 此外,文档还指出Azure函数可以扩展到多达200个实例。如果我最多只允许10名语言工作者,我如何
浏览 4
提问于2020-05-08
得票数 3
回答已采纳
1
回答
将数据加载到OrientDB集群中的策略
orientdb
、
etl
我正在使用OrientDB开发一个POC。我已经在3台服务器上设置了它。我阅读了OrientDB文档,并想知道以CSV文件的形式加载数据的最佳方法。该模式具有3个类顶点和3个类边,它们之间应该相互关联。 以下是我的一些问题: 1)就ETL性能而言,如果为每个类创建3个集群并将每个集群分配给其中一个服务器,这是否有意义?(基于这个链接: --我在现阶段不担心容错) 2)关于ETL存储过程,我正在考虑三个选项: OrientDB提供的ETL工具(包括所有可能的优化) 利用OGraphBatchInsert 以文档形式存储( ) 对于第二和第三种方法,我需要手动提供记录Ids,
浏览 4
提问于2016-08-26
得票数 0
2
回答
仅当文件夹中存在完整文件时才运行SSIS
file
、
ssis
、
etl
我已经开发了一个使用平面文件的ETL。平面文件的大小从250 MB到300 MB不等。当文件夹中存在文件时,它工作得异常正常。但当文件处于生成模式时,它会失败。 例如:这个ETL包从上午8点运行到上午10点,以检查文件夹中是否存在该文件。现在,在任何情况下(比方说上午9点),如果文件正在开始生成,并且到目前为止它是10MB。ETL开始处理文件,并在4-5分钟后挂起并失败(挂起在脚本任务中读取文件是否存在于文件夹中)。 当文件生成完成后,触发SSIS包的最佳方式是什么? 注意:我不能控制文件的生成。
浏览 2
提问于2013-03-20
得票数 2
回答已采纳
1
回答
使用Java自定义宾得勺组件
java
、
customization
、
pentaho
、
pentaho-spoon
、
pentaho-data-integration
我很快就在五旬节还是个新人了。我想知道这是否有可能实现。 在过去,我有很多使用SSIS的糟糕经验,所以当时我决定使用C#开发自己的ETL。实际上,.Net只执行提取步骤。数据被插入到DB中,其余的ETL由MSSQL查询引擎从txt文件中的普通SQL执行,由.Net在MSSQL中读取和执行。 我的想法是从.Net转到Java,并使用Spoon特性。好处是我有勺子的组件可以买到。示例中的表输出。 我有一个问题,就是一些平面文件被破坏了。例如,带有重音的字母被分隔符替换,所以我不能仅仅告诉ETL工具使用分隔符来拆分列,我首先需要验证存在多少分隔符,如果有更多的分隔符,就处理它。 我还需要验证文件是否
浏览 2
提问于2017-08-22
得票数 0
回答已采纳
2
回答
在五旬节的预期表现如何?
postgresql
、
pentaho
我正在使用宾得创建ETL的,我非常专注于性能。我开发了一个ETL进程,它将163.000.000行从SQLServer2088复制到PostgreSQL,耗时17h。 我不知道这次演出有多好或有多差。你知道如何衡量某个过程所需的时间是否好吗?至少作为一个参考,知道我是否需要继续在性能方面做大量的工作。 此外,我想知道在ETL进程的前2分钟加载200万行是否是正常的。我计算加载所有行所需的时间。预期结果为6小时,但随后性能下降,需要17h。 我一直在古尔调查,我没有发现任何时间参考,也没有任何关于性能的解释。
浏览 2
提问于2017-08-31
得票数 2
1
回答
CSV模块触发"UnicodeEncodeError:'charmap‘编解码器无法编码字符“
python
、
unicode
、
python-3.5
我刚刚开始了一项新的工作,我们在Mac上开发,但我们的服务器是Windows服务器。所以我把我的新代码迁移到了那里(它在Mac上运行得很好),突然我得到了这个回溯: Traceback (most recent call last): File ".\jira_oauth.py", line 260, in <module> writer.writerow(fields) File "C:\Anaconda3\lib\csv.py", line 153, in writerow return self.writer.write
浏览 2
提问于2016-02-27
得票数 2
1
回答
使用apache火花放电和气流的ETL
pyspark
、
airflow
我们正在开发ETL工具,使用apache和apache气流。Apache气流将用于工作流管理。 能处理大量的数据吗?可以从apache气流中提取、转换计数吗?
浏览 1
提问于2021-08-02
得票数 0
1
回答
开发数据存储步骤的标准过程
datastage
对于ETL作业,我有使用宾得、凯特尔和塔伦德数据集成的经验,通常开发转换的高级流程是: 定义源连接 定义目标连接 定义源和目标之间的数据转换 开发数据存储作业的“标准”高级流程是什么?它是否与上述过程类似?
浏览 2
提问于2015-07-20
得票数 0
回答已采纳
1
回答
包含测试用例的SQL Server .sql文件
sql-server
、
testing
、
ssis
、
etl
、
software-quality
我们有大量的测试用例(数百个)存储在.sql文件中,用于验证来自ETL过程的数据可交付内容。我们想要自动化这些的执行。如果不是自动运行,则通过调度程序批量运行它们。它们需要在ETL包之外完成,因为它们属于SQA而不是开发人员。 完成这项工作的最佳方法是什么? 我们可能也会将结果记录到DB表中,但还没有解决这个问题。欢迎任何关于这两个主题的提示/建议。
浏览 10
提问于2019-01-08
得票数 1
1
回答
VS2015中的SSIS包
ssis
、
visual-studio-2015
在Visual Studio 2015中开发SSIS ETL包需要什么。我已经安装了。我仍然无法在Visual studio 2015的新项目菜单中看到Integration Services项目。
浏览 3
提问于2016-07-24
得票数 3
回答已采纳
1
回答
在目标服务器上执行MySQL存储过程
mysql
、
sql-server
、
stored-procedures
、
ssis
、
business-intelligence
我正在开发一个SSIS,我想知道是否有可能执行MySQL存储过程。 这里是我想做的:从Server数据库,我想通过ETL (SSIS)获取信息并将它们发送到MySQL数据库(通过存储过程) 这里是我到目前为止所做的工作:,我从Server数据库获取数据并转换它们。 : --我不知道如何在MySQL服务器数据库(我的目的地)上执行现有的存储过程--这里是我的ETL (数据流)图: 我还在服务器上添加了一个OLEDB,并添加了我的目标源(MySQL数据库),但是我不知道在我的ETL中执行存储过程需要做什么。 如有必要,我可以提供更多的信息。 提前感谢
浏览 0
提问于2016-10-20
得票数 1
1
回答
使用扩展事件捕获用户在Server上运行的查询
sql-server
使用SQL 2016上的扩展事件--如何捕获用户针对特定数据库运行的所有查询。这有助于我们理解开发人员/报告分析师/etl开发人员在生产实例上运行查询的内容。 预期结果: UserName,TSQL查询运行,完成时间
浏览 0
提问于2018-09-05
得票数 5
回答已采纳
2
回答
是否可以检索所有日志消息,将它们存储在文件中,或者在ETL作业结束时显示它们?
java
、
logging
、
groovy
、
jedox
简介: 我在开发一种叫做Jedox的工具。在这个工具中有一个ETL。此ETL可以运行作业(作业允许从ETL执行多个步骤,我指的是表上的一组操作(大部分时间))。有些作业可以依次启动与etl不同的步骤,但是还有另一种类型的作业可以运行脚本。我试图运行一个使用Groovy语言的作业。这种语言非常类似于Java,这两种语言有很多相似之处。 上下文: 在运行期间,ETL在控制台上显示消息日志。我也可以自己打印一些信息。Ex LOG.info("hello")将在ETL控制台中打印Hello。LOG是类ETLLogger的一个对象。这是来自Jedox库的一个特定的类。 问题: 使用此记录
浏览 2
提问于2021-09-30
得票数 0
5
回答
Talend / Alfresco 4.0连接器?
alfresco
、
etl
、
talend
、
cmis
据我所知,这个项目的只支持Alfresco co3.3及更低版本。有没有适用于Alfresco 4.0的Talend连接器?我们在4.0中有如此多的开发工作,以至于我们甚至不想回滚到3.3,而是想使用像Talend这样的ETL来将批量文件加载到Alfresco中。 有没有其他我们应该考虑的带有Alfresco 4.0连接器的ETL工具?我们可以使用任何与Talend / CMIS兼容的连接器吗?关于产品的建议要看吗?谢谢。
浏览 0
提问于2012-10-19
得票数 3
1
回答
如何使用SQL身份验证将ETL包部署到远程Server?
sql-server
、
ssis
、
etl
我对ETL很陌生,所以我开发了一个简单的ETL包,现在我要将它部署到远程服务器上。 我使用SQL server身份验证连接到服务器,所以我转到解决方案资源管理器并打开部署向导,在“目标”选项卡中输入我的服务器ip,然后显示一条错误消息: 登录失败的用户'MYDOMAIN\MYUSERNAME‘。(.Net SqlClient数据提供程序) 如前所述,我希望使用server身份验证连接到服务器,在SSIS中可以在哪里更改此设置?
浏览 1
提问于2017-01-21
得票数 0
2
回答
并行运行气流任务/dags
python
、
python-3.x
、
parallel-processing
、
airflow
我用气流编排了一些python脚本。我有一个运行几个子标记的“主”dag。我的主进程应该根据以下概述运行: 通过使用以下行,我成功地在我的主dag中实现了这个结构: etl_internal_sub_dag1 >> etl_internal_sub_dag2 >> etl_internal_sub_dag3 etl_internal_sub_dag3 >> etl_adzuna_sub_dag etl_internal_sub_dag3 >> etl_adwords_sub_dag etl_internal_sub_dag3 >&
浏览 4
提问于2018-10-10
得票数 34
回答已采纳
1
回答
Grails为dev/test启动了两个内存中的数据库?
grails
、
groovy
、
reporting
、
datasource
、
etl
有没有办法用grails启动两个内存中的数据库?具体地说,我想集成测试我的ETL流程,并允许报告在开发和测试环境中都可运行。
浏览 1
提问于2011-06-27
得票数 3
回答已采纳
2
回答
SQL Server存储过程转换为SSIS包
sql-server
、
ssis
、
etl
问题:目前我们有大量的存储过程(非常长,多达10,000行),这些存储过程是由不同的开发人员在过去10年中为各种需求编写的。现在很难管理那些复杂/冗长的存储过程(没有适当的文档)。 我们计划将这些存储过程移动到SSIS ETL包中。 有没有人这样做已经过去了?如果是,应该采取什么方法。 如果任何人能就如何将存储过程转换为SSIS ETL包提供建议,我将不胜感激。 谢谢
浏览 4
提问于2011-05-29
得票数 6
1
回答
数据摄入测试
automated-testing
、
manual-testing
、
etl
在我正在进行的一个项目中,数据源是一个文件,文件中的数据必须在黑斑羚 (Hadoop)中复制。开发工作已经完成,我需要为这个开发制定一个测试策略。市场上是否有任何工具能在这方面有所帮助?而且,这与ETL测试类似吗?
浏览 0
提问于2019-03-02
得票数 1
1
回答
当所有目录都有ModuleNotFoundError时,为什么我的项目在__init__.py中失败?
python
首先,我不是蟒蛇专家。 我有一个由PyChart在Mac上运行的项目,并且运行得很好。自从我回到Windows之后,我想在Windows子系统a.k.a中运行我的python项目。Ubuntu Bash命令行。背后的原因如下: Ubuntu提供了更多的灵活性来处理不同的python版本。 我连接到kerberized,这里需要节省-ssl和其他软件包,它们是按安装时间编译的,在Windows上,我遇到了安装这些包的困难。Ubuntu很有魅力。由于这个原因,Windows上的PyCharm不是一个选项 连接到的服务需要kerberos身份验证。运行在Windows上的PyCharm可
浏览 0
提问于2019-01-28
得票数 0
回答已采纳
1
回答
远程并以编程方式运行SSIS包
sql-server
、
ssis
问题 我已经为ETL进程开发了一个SSIS包,我已经成功地将它部署到远程服务器上。我有这个服务器的窗口和SQL登录,但没有管理员。此ETL进程加载的数据每天清晨(即在我开始工作之前)在不同的计算机上生成,并且需要在数据生成过程之后尽快自动加载。 目前,我在SSMS中手动运行ETL包,并通过使用runas.exe启动SSMS来欺骗远程服务器上的windows用户凭据来验证这一点。这是目前的好,因为我们正在早期开发,但这显然不是一个可接受的解决方案的生产。因此,我想自动化这个过程,因为( a)数据对时间非常敏感,( b)手动运行这个过程是一个PITA。 我应该如何自动执行ETL包,以便: 在数
浏览 5
提问于2017-08-30
得票数 1
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
什么是ETL
ETL-KETTLE工具使用
Talend ETL 性能调优宝典
信息科技 ETL工程师
ETL-全量与增量
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券