创建作业或管道以使用pandas_gbq运行脚本以摄取big_query表的最佳选择是什么？

文章/答案/技术大牛

发布

1回答

python、google-cloud-platform、google-bigquery、jobs、data-ingestion

我不是一名数据工程师，我对最好的方法有一些疑问。我的主要目标是有一个工作来填充(例如，以一定的频率，每天)向bigquery表提供一些csv文件(在GCP的存储桶中)。下面是我的实际脚本： import pandas as pdfrom pandas.tests.io.test_gbqimport pandas_gbq from src.uploads import

浏览 25提问于2020-04-02得票数 0

1回答

一个应用程序中一个或多个作业的火花实时处理

apache-spark

我很想知道设计火花流应用程序的最佳实践方法是什么。该处理分为3个步骤，每个主题都有一个新的主题，如原始的、标准化的和逻辑的。该问题涉及火花汽蒸应用程序的设计。我看到了三个选择 1流式应用程序每个步骤意味着每个源运行3个火花作业，每个源运行1流应用程序，这意味着一个运行</em

浏览 1提问于2020-08-25得票数 1

回答已采纳

5回答

Azure数据工厂(ADF)与Azure函数:如何选择？

azure、azure-functions

目前，我们正在使用Blob trigger Azure函数将json数据移动到Cosmos DB中。我们正计划用Azure数据工厂(ADF)管道替换Azure函数。我刚接触Azure Data Factory(ADF)，所以不确定Azure Data Factory(ADF)管道是不是更好的选择？

浏览 1提问于2020-02-08得票数 5

1回答

在减少/压缩的小文件数中写入蜂窝表

dataframe、hadoop、pyspark、hive、hdfs

每次进程运行时，我都会更新一个dataframe记录，这意味着每当进程完成时，我都会有一个一行4列的数据。然后，我将把它插入到蜂箱表中，使用dataframe写和拼花格式。由于一次只记录一次，我在hfds的表文件夹中看到了这么多的小文件。part-03049-f33fc4b5-4

浏览 1提问于2020-06-19得票数 0

回答已采纳

4回答

如何在VSTS (Azure DevOps)中同时运行五个代理作业？

azure-devops、azure-pipelines、continuous-deployment、azure-pipelines-release-pipeline

我已经创建了一个包含五个代理作业的发布管道，并且我希望同时启动所有五个作业。例如，我需要同时启动所有代理作业，同时执行唯一的任务(等待10秒)。

浏览 1提问于2018-10-11得票数 3

回答已采纳

1回答

远大期望-在PostgreSQL表的特定子集上运行验证

great-expectations

实际上，我有一个PostgreSQL数据库，每次运行数据管道时，我都想根据某个键来验证PostgreSQL表的一个特定子集。例如:如果数据管道每天都在运行，那么应该是一个名为current_batch的字段。并且将对以下查询进行验证：从current_batch = 的作业中选择*。我不确定完成这项任务的最佳方式。我是一个被寄予厚望的使用v3

浏览 26提问于2021-08-16得票数 2

1回答

如何使用Cloud Composer在外部集群中调度Kubernetes工作负载

kubernetes、google-kubernetes-engine、airflow、google-cloud-composer

我计划使用Google Cloud Composer (Apache Airflow)来管理我们的数据管道。某些处理步骤是在Docker镜像中定义的，我希望触发该镜像以在Google Kubernetes引擎上运行。这些处理步骤通常是资源密集型作业，我想知道调度它们的最佳方法是什么。然而，据我所知，此工作负载将在现有的Cloud Composer Kubernetes集群中创建。因此，可用于

浏览 6提问于2019-08-21得票数 1

回答已采纳

2回答

对AWS的大CSV文件处理建议

amazon-web-services、bigdata

需要一些关于服务的建议，在下面的情况下，我可以在AWS上使用。客户订单可以在每个压缩文件中分发，而不需要对进行排序，我正在开发一个系统，它可以将60个文件中的客户的所有订单聚合到一个客户实例中，其中包含它们的订单和项目信息，并将这2个客户实例发送到另一个服务中进行进一步处理。目前，我正在考虑

浏览 3提问于2021-08-07得票数 0

1回答

如何最好地缓存bigquery表以快速查找单个行？

google-cloud-platform、google-cloud-firestore、google-bigquery、google-cloud-dataflow

我在bigquery中有一个原始数据表，它有数亿行。我每24小时运行一次预定的查询，以生成一些聚合，从而生成一个标有3300万行(6gb)的表格，但可能会缓慢增长到大约是当前大小的两倍。我需要一种方法一次获得1行，在一个单独的事件驱动的管道中，通过id快速访问该聚合表。也就是说，一个进程被告知person A刚刚采取了一个操作，我们从聚合表中了解到了这个人的历史吗？显然，bigqu

浏览 2提问于2019-09-30得票数 0

回答已采纳

1回答

基于GitLab环境分支流的GitLab CICD部署

gitlab-ci

如果测试通过，合并请求被接受，一个特定的作业将为我的应用程序创建一个生成标记的停靠器图像，该图像存储在项目容器注册表中。这是通过使用kaniko创建带有最新和标记的图像来完成的，以确保图像的可再现性。然后，将合并请求打开到暂存中，以deploy 最新的标记图像作为暂存。标记过程触发了一个标记管道，我用它创建了

浏览 5提问于2022-09-05得票数 0

回答已采纳

2回答

使用resume导入SSIS数据

sql、ssis、azure-sql-database、data-transfer

我需要将一个大型SQL表从本地实例推送到SQL Azure。传输是一种简单的“干净”上传--只需将数据推送到一个新的空表中。该表非常大(大约1亿行)，只包含GUID和其他简单类型(没有时间戳或其他任何类型)。我在SSMS中使用Data Import / Export Wizard创建SSIS包。这个包运行得很好。问题是当包在缓慢或间歇性连接上运行时。如果互联网连接在中途中断，那么就没有办

浏览 0提问于2012-01-11得票数 4

2回答

在云运行中将共享缓存对象存储在哪里？

shared-memory、google-cloud-run、data-ingestion、google-cloud-memorystore

我正在使用Cloud创建一个数据摄取管道。每次通过Pub将文件放到GCS桶中时，我的Cloud都会被调用。我需要加载一些元数据，其中包含了我正在摄取的数据的文本。这种元数据很少发生变化。我最好的选择是什么？到目前为止，我能够研究的是：如果在每个服务请求上重新创建对象成本高昂，也可以在内存中缓存对象。将这一点从请求逻辑转移到全局范围会带来更好

浏览 7提问于2019-12-23得票数 5

回答已采纳

1回答

SemVer是否对连续交付是多余的？

continuous-integration、microservices、release、continuous-deployment、semantic-versioning

我们并不是不断地部署到生产中，而是不断地部署以测试发布候选集成测试的环境。系统组件包括前端、后端、适配器模块和共享数据库。他们被包装成码头集装箱。我们使用Docker注册中心作为工件存储库，并使用docker组合来集成每个组件的latest版本以进行集成测试。有关管道及其依赖项，请参见下面的DAG图。基本上，上游项目中的变化会触发每个下游项目的重建，直到到达叶节点为止。当将叶节点停靠器图像推送到注册表时，将触发集成测试。触发器逻辑在

浏览 3提问于2021-04-03得票数 2

1回答

您如何应对Bigquery，特别是当您来自传统的RDMS背景，如Oracle/Mysql？

google-cloud-platform、google-bigquery

我有一个大约200列的表，当我想得到这个表的DDL时，没有现成的选项可用。猫并不总是令人向往的。有些时候，我们没有要用猫创建的引用表，有些时候，我们只是想要一个简单的DDL语句来重新创建一个表。我想编辑bigquery模式的模式。以前的模式现在是可空的，现在它需要..(到目前为止，已加载列使用非空值加载该列)

浏览 3提问于2020-05-18得票数 0

回答已采纳

2回答

使用Cassandra的Spark任务

count、cassandra、apache-spark、task

我是Spark和Cassandra的新手一种观察是，spark作业的任务数量增加了w.r.t数据增长。正因为如此，我们在获取数据时面临着大量的延迟。应该考虑什么来提高Cassandra在Spark中的性能？谢谢, 马利卡金

浏览 1提问于2015-09-08得票数 2

2回答

如何检查windows文件传输和启动SSIS包？

sql-server、file、ssis、ssms、file-exists

我是SSIS开发的新手。我需要在收到文件到服务器后运行SSIS包。我遵循以下步骤: 1.首先创建我的SSIS包，其中包含脚本任务，以检查文件是否存在。如果存在，它将继续包中的后续步骤。2.创建SSMS计划作业，每10分钟(重复)启动一次SSIS包，查看文件是否可用。因为没有特定的时间将该文件传输到服务器。因此，该作业计划为2小时窗口，且在该时间窗口中，它将每隔10分钟启动SSIS包。我的问题是，一

浏览 2提问于2013-09-25得票数 1

1回答

石英弹簧设计建议

spring、quartz-scheduler

我在集群环境中使用quartz + spring运行的作业很少。这些作业没有设置为在集群环境中运行，因此每个作业将根据我们拥有的实例数量多次运行。这些作业在AWS环境中运行。因此，我们不确定有多少实例将运行，因为我们可以动态增加或减少。所以我们正在重构代码。问题，让我们以基于特定活动向用户发送电子邮件的作业为例。每天可能有10

浏览 5提问于2016-12-26得票数 1

1回答

我应该使用哪个Ruby / Rails背景作业框架(在Heroku上工作)来动态添加Rails中的未来作业

ruby-on-rails、ruby、heroku、delayed-job、jobs

因此，我创建了一个客户机服务器(客户机和服务器的Rails)系统，它将有许多客户机与一台服务器进行交互，使用REST进行交互。，看看是否有任何作业需要基于datetime列运行(检查datetime条目是否等于或小于当前工人正在运行的时间)但是，我不能使用

浏览 3提问于2016-12-18得票数 1

回答已采纳

1回答

Airflow -从BigQuery动态生成任务，但任务在之前完成之前重复运行

python、google-bigquery、airflow、google-cloud-composer

上下文我正在尝试使用Composer，DataProc和BigQuery在谷歌云平台上建立一个摄取管道。我在BigQuery中有一个表，其中包含数据源及其相关文件的记录。因此，如果我需要摄取5个文件，那么在BigQuery表中就有5条记录。明天可能会有不同数量的文件。因此，我考虑在我的DAG中动态构建任务。概要设计如下：执行一个函数，以Pandas dataframe (或dict，两者都可以)

浏览 51提问于2021-02-25得票数 0

回答已采纳

4回答

在VSTS中自动启动/停止作为生成代理的现有Azure VM

azure、azure-devops、azure-pipelines

我能够将我现有的Azure VM注册为VSTS中的构建代理。构建工作正常，但我只想在有任何工作的情况下打开和关闭机器。

浏览 0提问于2017-09-04得票数 10

点击加载更多