我试图使用Apache在BigQuery中查询一个视图。
视图可以访问它引用的所有数据集。Dataflow/GCE服务帐户可以访问视图,但不能访问其基础数据集(这不应该是问题)。
当我试图运行一个查询授权视图的作业时,会得到如下错误:
java.lang.RuntimeException: java.io.IOException: Unable to get table: test_13249, aborting after 9 retries.
at org.apache.beam.sdk.io.gcp.bigquery.BigQueryServicesImpl.executeWit
我在Google Dataflow中运行了一个Apache beam流水线。它从Kafka中读取数据并将其流式插入到Bigquery。
但在bigquery流插入步骤中,它抛出了大量警告-
java.lang.RuntimeException: ManagedChannel allocation site
at io.grpc.internal.ManagedChannelOrphanWrapper$ManagedChannelReference.<init> (ManagedChannelOrphanWrapper.java:93)
at io.grpc.internal
因为我不允许在同一个线程中问我的问题,而另一个人有同样的问题(但不使用模板),所以我正在创建这个新线程。
问题是:我创建了一个数据流作业,从gcp中的一个模板到把酒吧/潜艇中的数据摄取到BQ中。在作业执行之前,这一切都很好。这份工作被“卡住”了,没有写任何关于烧烤的东西。
我不能做这么多,因为我不能在模板中选择光束版本。这是一个错误:
Processing stuck in step WriteSuccessfulRecords/StreamingInserts/StreamingWriteTables/StreamingWrite for at least 01h00m00s without
当我使用已定义的模板时,我总是遇到这个问题。我不确定问题出在哪里。 关于sdk:Apache Beam SDK for Java 2.10.0 Processing stuck in step WriteSuccessfulRecords/StreamingInserts/StreamingWriteTables/StreamingWrite for at least 05m00s without outputting or completing in state finish
at sun.misc.Unsafe.park(Native Method)
at java.util.c
当我使用ApacheBeamSDKforJava2.29.0将数据插入Bigauqery时,我正在断断续续地处理数据流作业中的内存问题。
这是堆栈跟踪
Error message from worker: java.lang.RuntimeException: java.lang.OutOfMemoryError: unable to create native thread: possibly out of memory or process/resource limits reached
org.apache.beam.sdk.io.gcp.bigquery.Big
我想读取一个csv文件,并将其写入到BigQuery使用阿帕奇光束数据流。为此,我需要将数据以字典的形式呈现给BigQuery。如何使用apache beam转换数据以实现此目的?
我的输入csv文件有两列,我想在BigQuery中创建一个后续的两列的表。我知道如何在BigQuery中创建数据,这很简单,我不知道的是如何将csv转换成字典。下面的代码是不正确的,但应该给出了我想要做什么的想法。
# Standard imports
import apache_beam as beam
# Create a pipeline executing on a direct runner (local
我试图使用JDBC到BigQuery Dataflow 将数据从Postgres数据库复制到BigQuery。但是我的数据流作业失败了,我在下面遇到了这个错误:
java.lang.RuntimeException: Failed to create job with prefix beam_bq_job_LOAD_jdbctobigquerydataflow0releaser1025092115d7a229e9_214eff91b59f4b8d863809d3865504fa_11cbacad09f05e44363d2dd2963e9fd1_00001_00000, reached max
我正在使用云数据流将数据从发布/订阅消息导入到BigQuery表中。我使用DynamicDestinations,因为这些消息可以放入不同的表中。
我最近注意到,该进程开始消耗所有资源,并显示以下消息:
Processing stuck in step Write Avros to BigQuery Table/StreamingInserts/StreamingWriteTables/StreamingWrite for at least 26h45m00s without outputting or completing in state finish at sun.misc.Unsafe
由于某些条件,我需要在数据流作业中使用bigquery客户端库将一些条目写入特定的表,我可以使用bq客户端库查询一个表,没有任何问题,但当我尝试写入该表时,我得到以下错误: [ERROR] Failed to execute goal org.codehaus.mojo:exec-maven-plugin:3.0.0:java (default-cli) on project <project name>: An exception occured while executing the Java class. java.lang.IllegalStateException: g
当我尝试运行这个管道时,我得到了这个异常:
Exception has occurred: AttributeError module 'apache_beam.io.gcp.internal.clients.bigquery' has no attribute 'TableReference'
table_spec='ExporterPlayGround.TEST_STREAM'
with beam.Pipeline(options=pipeline_options) as p:
from apache_beam.io.gcp
我试图使用DynamicDestinations写入BigQuery中的分区表,其中分区名为mytable$yyyyMMdd。如果我绕过了动态目的地,并在.to()中提供了一个硬编码的表名,那么它就能工作;但是,对于动态目的地,我得到了以下例外:
java.lang.IllegalArgumentException: unable to serialize org.apache.beam.sdk.io.gcp.bigquery.PrepareWrite$1@6fff253c
at org.apache.beam.sdk.util.SerializableUtils.serializeToByt
我有一个非常简单的数据流工作,我想编写单元测试。遗憾的是,没有好的例子说明什么是最好的方法。
这是代码
import logging
from datetime import datetime
from re import sub
import apache_beam as beam
from apache_beam.options.pipeline_options import PipelineOptions
from apache_beam.options.pipeline_options import GoogleCloudOptions
from beam_nuggets.io im
我的团队开发的Dataflow管道突然开始卡住,停止处理我们的事件。他们的工作日志里充斥着警告信息,说有一个具体的步骤被卡住了。奇怪的是,失败的步骤是不同的,一个是BigQuery输出,另一个是云存储输出。
以下是我们正在接收的日志消息:
对于BigQuery输出:
Processing stuck in step <STEP_NAME>/StreamingInserts/StreamingWriteTables/StreamingWrite for at least <TIME> without outputting or completing in state fi
我已经使用apache beam (Dataflow Runner)编写了mongodb到bigquery数据管道的python代码。 Mongodb有两列(id和name)的类似mysql的简单表,没有复杂的structure.My代码,如下所示。 #########################################
import apache_beam as beam
from apache_beam.options.pipeline_options import PipelineOptions
from ap
下面是从csv文件中读取并写入另一个csv文件和BigQuery的代码:
import argparse
import logging
import re
import apache_beam as beam
from apache_beam.io import ReadFromText
from apache_beam.io import WriteToText
from apache_beam.metrics import Metrics
from apache_beam.metrics.metric import MetricsFilter
from apache_beam.option
我需要在Apache管道中运行一个对BigQuery的动态查询。应该根据消息中的值在运行时对查询进行评估。即select * from mytable where mycolumn = << dynamic value >>
我似乎无法让Apache连接器使用动态查询。理想情况下,管道应该是这样的:
from apache_beam import Create, Pipeline
from apache_beam.io.gcp.bigquery import ReadFromBigQuery
...
with Pipeline(argv=pipeline_args
我们正在用STORAGE_WRITE_API进行测试,以便将数据插入BigQuery。我们在Dataflow管道中看到了几个错误/警告(用Java编写)。它在一开始可能运行良好,但最终系统延迟会增加,它将停止处理来自PubSub的任何数据和未加标记的信息堆积。
一个常见的警告是:
Operation ongoing in step insertTableRowsToBigQuery/StorageApiLoads/StorageApiWriteSharded/Write Records for at least 03h35m00s without outputting or completin
作为POC的一部分,我试图通过Dataprep设置一些数据质量检查。有一个BigQuery表作为源,它应该运行一个输出到另一个BigQuery的作业。不幸的是,该作业失败并出现错误:
java.lang.RuntimeException: Failed to create job with prefix beam_load_[thenameofthejob], reached max retries: 3, last failed job: null.
at org.apache.beam.sdk.io.gcp.bigquery.BigQueryHelpers$PendingJob.ru
我正在数据流上尝试这段代码。读取gs:/存储桶上的csv文件,创建BigQuery表并追加数据。守则如下:
from __future__ import absolute_import
import argparse
import logging
import os
import apache_beam as beam
from apache_beam.io import ReadFromText, ReadAllFromText
from apache_beam.io import WriteToText
from apache_beam.metrics import Metrics
f
我有一个GCS桶,我试图从这个桶中读取大约200k文件,然后将它们写入BigQuery。问题是,我在创建一个与代码工作良好的PCollection时遇到了困难。我正在学习教程以供参考。
我有这样的代码:
from __future__ import absolute_import
import argparse
import logging
import os
from past.builtins import unicode
import apache_beam as beam
from apache_beam.io import ReadFromText, ReadAllFromTe