腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(987)
视频
沙龙
1
回答
创建
作业
或
管道
以
使用
pandas_gbq
运行
脚
本以
摄取
big_query
表
的
最佳
选择
是什么
?
python
、
google-cloud-platform
、
google-bigquery
、
jobs
、
data-ingestion
我不是一名数据工程师,我对最好
的
方法有一些疑问。我
的
主要目标是有一个工作来填充(例如,
以
一定
的
频率,每天)向bigquery
表
提供一些csv文件(在GCP
的
存储桶中)。下面是我
的
实际脚本: import pandas as pdfrom pandas.tests.io.test_gbqimport
pandas_gbq
from src.uploads import
浏览 25
提问于2020-04-02
得票数 0
1
回答
一个应用程序中一个
或
多个
作业
的
火花实时处理
apache-spark
我很想知道设计火花流应用程序
的
最佳
实践方法
是什么
。该处理分为3个步骤,每个主题都有一个新
的
主题,如原始
的
、标准化
的
和逻辑
的
。该问题涉及火花汽蒸应用程序
的
设计。我看到了三个
选择
1流式应用程序每个步骤意味着每个源
运行
3个火花
作业
,每个源
运行
1流应用程序,这意味着一个
运行</em
浏览 1
提问于2020-08-25
得票数 1
回答已采纳
5
回答
Azure数据工厂(ADF)与Azure函数:如何
选择
?
azure
、
azure-functions
目前,我们正在
使用
Blob trigger Azure函数将json数据移动到Cosmos DB中。我们正计划用Azure数据工厂(ADF)
管道
替换Azure函数。我刚接触Azure Data Factory(ADF),所以不确定Azure Data Factory(ADF)
管道
是不是更好
的
选择
?
浏览 1
提问于2020-02-08
得票数 5
1
回答
在减少/压缩
的
小文件数中写入蜂窝
表
dataframe
、
hadoop
、
pyspark
、
hive
、
hdfs
每次进程
运行
时,我都会更新一个dataframe记录,这意味着每当进程完成时,我都会有一个一行4列
的
数据。然后,我将把它插入到蜂箱
表
中,
使用
dataframe写和拼花格式。由于一次只记录一次,我在hfds
的
表
文件夹中看到了这么多
的
小文件。part-03049-f33fc4b5-4
浏览 1
提问于2020-06-19
得票数 0
回答已采纳
4
回答
如何在VSTS (Azure DevOps)中同时
运行
五个代理
作业
?
azure-devops
、
azure-pipelines
、
continuous-deployment
、
azure-pipelines-release-pipeline
我已经
创建
了一个包含五个代理
作业
的
发布
管道
,并且我希望同时启动所有五个
作业
。 例如,我需要同时启动所有代理
作业
,同时执行唯一
的
任务(等待10秒)。
浏览 1
提问于2018-10-11
得票数 3
回答已采纳
1
回答
远大期望-在PostgreSQL
表
的
特定子集上
运行
验证
great-expectations
实际上,我有一个PostgreSQL数据库,每次
运行
数据
管道
时,我都想根据某个键来验证PostgreSQL
表
的
一个特定子集。例如:如果数据
管道
每天都在
运行
,那么应该是一个名为current_batch
的
字段。并且将对以下查询进行验证: 从current_batch =
的
作业
中
选择
*。 我不确定完成这项任务
的
最佳
方式。我是一个被寄予厚望
的
使用
v3
浏览 26
提问于2021-08-16
得票数 2
1
回答
如何
使用
Cloud Composer在外部集群中调度Kubernetes工作负载
kubernetes
、
google-kubernetes-engine
、
airflow
、
google-cloud-composer
我计划
使用
Google Cloud Composer (Apache Airflow)来管理我们
的
数据
管道
。某些处理步骤是在Docker镜像中定义
的
,我希望触发该镜像
以
在Google Kubernetes引擎上
运行
。这些处理步骤通常是资源密集型
作业
,我想知道调度它们
的
最佳
方法
是什么
。然而,据我所知,此工作负载将在现有的Cloud Composer Kubernetes集群中
创建
。因此,可用于
浏览 6
提问于2019-08-21
得票数 1
回答已采纳
2
回答
对AWS
的
大CSV文件处理建议
amazon-web-services
、
bigdata
需要一些关于服务
的
建议,在下面的情况下,我可以在AWS上
使用
。客户订单可以在每个压缩文件中分发,而不需要对进行排序,我正在开发一个系统,它可以将60个文件中
的
客户
的
所有订单聚合到一个客户实例中,其中包含它们
的
订单和项目信息,并将这2个客户实例发送到另一个服务中进行进一步处理。目前,我正在考虑
浏览 3
提问于2021-08-07
得票数 0
1
回答
如何最好地缓存bigquery
表
以
快速查找单个行?
google-cloud-platform
、
google-cloud-firestore
、
google-bigquery
、
google-cloud-dataflow
我在bigquery中有一个原始数据
表
,它有数亿行。我每24小时
运行
一次预定
的
查询,
以
生成一些聚合,从而生成一个标有3300万行(6gb)
的
表格,但可能会缓慢增长到大约是当前大小
的
两倍。我需要一种方法一次获得1行,在一个单独
的
事件驱动
的
管道
中,通过id快速访问该聚合
表
。也就是说,一个进程被告知person A刚刚采取了一个操作,我们从聚合
表
中了解到了这个人
的
历史吗?显然,bigqu
浏览 2
提问于2019-09-30
得票数 0
回答已采纳
1
回答
基于GitLab环境分支流
的
GitLab CICD部署
gitlab-ci
如果测试通过,合并请求被接受,一个特定
的
作业
将为我
的
应用程序
创建
一个生成标记
的
停靠器图像,该图像存储在项目容器注册
表
中。这是通过
使用
kaniko
创建
带有最新和标记
的
图像来完成
的
,
以
确保图像
的
可再现性。 然后,将合并请求打开到暂存中,
以
deploy 最新
的
标记图像作为暂存。标记过程触发了一个标记
管道
,我用它
创建
了
浏览 5
提问于2022-09-05
得票数 0
回答已采纳
2
回答
使用
resume导入SSIS数据
sql
、
ssis
、
azure-sql-database
、
data-transfer
我需要将一个大型SQL
表
从本地实例推送到SQL Azure。传输是一种简单
的
“干净”上传--只需将数据推送到一个新
的
空
表
中。该
表
非常大(大约1亿行),只包含GUID和其他简单类型(没有时间戳
或
其他任何类型)。 我在SSMS中
使用
Data Import / Export Wizard
创建
SSIS包。这个包
运行
得很好。问题是当包在缓慢
或
间歇性连接上
运行
时。如果互联网连接在中途中断,那么就没有办
浏览 0
提问于2012-01-11
得票数 4
2
回答
在云
运行
中将共享缓存对象存储在哪里?
shared-memory
、
google-cloud-run
、
data-ingestion
、
google-cloud-memorystore
我正在
使用
Cloud
创建
一个数据
摄取
管道
。每次通过Pub将文件放到GCS桶中时,我
的
Cloud都会被调用。我需要加载一些元数据,其中包含了我正在
摄取
的
数据
的
文本。这种元数据很少发生变化。我最好
的
选择
是什么
?到目前为止,我能够研究
的
是: 如果在每个服务请求上重新
创建
对象成本高昂,也可以在内存中缓存对象。将这一点从请求逻辑转移到全局范围会带来更好
浏览 7
提问于2019-12-23
得票数 5
回答已采纳
1
回答
SemVer是否对连续交付是多余
的
?
continuous-integration
、
microservices
、
release
、
continuous-deployment
、
semantic-versioning
我们并不是不断地部署到生产中,而是不断地部署
以
测试发布候选集成测试
的
环境。 系统组件包括前端、后端、适配器模块和共享数据库。他们被包装成码头集装箱。我们
使用
Docker注册中心作为工件存储库,并
使用
docker组合来集成每个组件
的
latest版
本以
进行集成测试。有关
管道
及其依赖项,请参见下面的DAG图。基本上,上游项目中
的
变化会触发每个下游项目的重建,直到到达叶节点为止。当将叶节点停靠器图像推送到注册
表
时,将触发集成测试。触发器逻辑在
浏览 3
提问于2021-04-03
得票数 2
1
回答
您如何应对Bigquery,特别是当您来自传统
的
RDMS背景,如Oracle/Mysql?
google-cloud-platform
、
google-bigquery
我有一个大约200列
的
表
,当我想得到这个
表
的
DDL时,没有现成
的
选项可用。猫并不总是令人向往
的
。有些时候,我们没有要用猫
创建
的
引用
表
,有些时候,我们只是想要一个简单
的
DDL语句来重新
创建
一个
表
。我想编辑bigquery模式
的
模式。以前
的
模式现在是可空
的
,现在它需要..(到目前为止,已加载列
使用
非空值加载该列)
浏览 3
提问于2020-05-18
得票数 0
回答已采纳
2
回答
使用
Cassandra
的
Spark任务
count
、
cassandra
、
apache-spark
、
task
我是Spark和Cassandra
的
新手一种观察是,spark
作业
的
任务数量增加了w.r.t数据增长。正因为如此,我们在获取数据时面临着大量
的
延迟。应该考虑什么来提高Cassandra在Spark中
的
性能?谢谢, 马利卡金
浏览 1
提问于2015-09-08
得票数 2
2
回答
如何检查windows文件传输和启动SSIS包?
sql-server
、
file
、
ssis
、
ssms
、
file-exists
我是SSIS开发
的
新手。我需要在收到文件到服务器后
运行
SSIS包。我遵循以下步骤: 1.首先
创建
我
的
SSIS包,其中包含脚本任务,
以
检查文件是否存在。如果存在,它将继续包中
的
后续步骤。2.
创建
SSMS计划
作业
,每10分钟(重复)启动一次SSIS包,查看文件是否可用。因为没有特定
的
时间将该文件传输到服务器。因此,该
作业
计划为2小时窗口,且在该时间窗口中,它将每隔10分钟启动SSIS包。 我
的
问题是,一
浏览 2
提问于2013-09-25
得票数 1
1
回答
石英弹簧设计建议
spring
、
quartz-scheduler
我在集群环境中
使用
quartz + spring
运行
的
作业
很少。这些
作业
没有设置为在集群环境中
运行
,因此每个
作业
将根据我们拥有的实例数量多次
运行
。这些
作业
在AWS环境中
运行
。因此,我们不确定有多少实例将
运行
,因为我们可以动态增加
或
减少。所以我们正在重构代码。 问题,让我们
以
基于特定活动向用户发送电子邮件
的
作业
为例。每天可能有10
浏览 5
提问于2016-12-26
得票数 1
1
回答
我应该
使用
哪个Ruby / Rails背景
作业
框架(在Heroku上工作)来动态添加Rails中
的
未来
作业
ruby-on-rails
、
ruby
、
heroku
、
delayed-job
、
jobs
因此,我
创建
了一个客户机服务器(客户机和服务器
的
Rails)系统,它将有许多客户机与一台服务器进行交互,
使用
REST进行交互。,看看是否有任何
作业
需要基于datetime列
运行
(检查datetime条目是否等于
或
小于当前工人正在
运行
的
时间)但是,我不能
使用
浏览 3
提问于2016-12-18
得票数 1
回答已采纳
1
回答
Airflow -从BigQuery动态生成任务,但任务在之前完成之前重复
运行
python
、
google-bigquery
、
airflow
、
google-cloud-composer
上下文 我正在尝试
使用
Composer,DataProc和BigQuery在谷歌云平台上建立一个
摄取
管道
。我在BigQuery中有一个
表
,其中包含数据源及其相关文件
的
记录。因此,如果我需要
摄取
5个文件,那么在BigQuery
表
中就有5条记录。明天可能会有不同数量
的
文件。因此,我考虑在我
的
DAG中动态构建任务。概要设计如下: 执行一个函数,
以
Pandas dataframe (
或
dict,两者都可以)
浏览 51
提问于2021-02-25
得票数 0
回答已采纳
4
回答
在VSTS中自动启动/停止作为生成代理
的
现有Azure VM
azure
、
azure-devops
、
azure-pipelines
我能够将我现有的Azure VM注册为VSTS中
的
构建代理。构建工作正常,但我只想在有任何工作
的
情况下打开和关闭机器。
浏览 0
提问于2017-09-04
得票数 10
点击加载更多
相关
资讯
flink用例
Uber自动驾驶技术解读:Uber ATG机器学习架构与版本控制平台
Pure Storage推出Data Stream:AI数据管道加速器
Uber 如何使用ClickHouse建立快速可靠且与模式无关的日志分析平台?
实时分布式OLAP数据存储区-Apache Pinot介绍
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
即时通信 IM
活动推荐
运营活动
广告
关闭
领券