当我尝试使用direct runner从Apache光束调用我的Spring应用程序时,我得到了下面的异常。 org.apache.beam.sdk.Pipeline$PipelineExecutionException:
java.lang.IllegalAccessError: class
io.grpc.internal.CensusTracingModule$TracingClientInterceptor tried to access
private field io.opencensus.trace.unsafe.ContextUtils.CONTEXT_SPAN_KEY
我正在尝试使用Samza Runner从here运行单词计数演示。这是我的build.gradle plugins {
id 'eclipse'
id 'java'
id 'application'
// 'shadow' allows us to embed all the dependencies into a fat jar.
id 'com.github.johnrengelman.shadow' version '4.0.3'
}
mainClassName =
我想使用Spring与Apache光束,这将运行在谷歌云数据流运行。数据流作业应该能够在执行管道步骤时使用Spring Runtime应用程序上下文。我想在我的Apache光束管道中使用Spring特性来实现DI和其他东西。在google上浏览了几个小时后,我找不到任何关于在Apache Beam中集成Spring的帖子或文档。所以,如果有人尝试过spring和Apache beam,请让我知道。 在main类中,我已经初始化了spring应用程序上下文,但在执行管道步骤时它不可用。对于自动连接的bean,我得到了空指针异常。我猜问题在于,在运行时上下文对工作线程不可用。 public s
令人困惑的是,每个关于数据流的谷歌文档都说它现在是基于Apache光束的,并将我引导到光束网站。此外,如果我查找github项目,我会发现google dataflow项目是空的,并且所有的项目都转到apache see repo。假设我现在需要创建一个管道,根据我从Apache光束中读到的,我会这样做:from apache_beam.options.pipeline_options然而,如果我使用google-cloud-dataflow,我会得到错误:no module named 'options',结果我应该使用from apache_beam.utils.pipel
我正在尝试写一个BigTableAvroFn函数,它读取bigtable行,并使用apache光束将其转换为Avro通用记录.How我是否可以将行数据转换为一般记录?
pipeline.apply("Read from Bigtable", read)
.apply("Transform to Avro", ParDo(new BigtableToAvroFn()));
return pipeline.run();
}
静态类BigtableToAvroFn扩展了DoFn {
@ProcessElement
public void proces
我试图使用beam将csv文件中的数据从GCS传输到BQ,但是当我调用NoneType时,我得到了一个WriteToBigQuery错误。错误信息:
AttributeError: 'NoneType' object has no attribute 'items' [while running 'Write to BQ/_StreamToBigQuery/StreamInsertRows/ParDo(BigQueryWriteFn)']
我的管道代码:
import apache_beam as beam
from apache_beam.pi
我正在尝试使用Beam SQL执行一个简单的连接,但在编译时遇到异常: Exception in thread "main" java.lang.ClassCastException: org.apache.beam.repackaged.beam_sdks_java_extensions_sql.org.apache.calcite.rex.RexCall cannot be cast to org.apache.beam.repackaged.beam_sdks_java_extensions_sql.org.apache.calcite.rex.RexInputRef
我的项目运行的是Python2.7(是的,我知道...)Google Dataflow上的Apache Beam 2.19。我们连接到BigQuery的方式与Apache光束教程中指定的方式相同:
p | 'Get data from BigQuery' >> beam.io.Read(beam.io.BigQuerySource(
query=get_query(limit),
use_standard_sql=True)))
然而,此管道的读取步骤非常慢-很可能是由于读取.avro文件所致。不过,看起来fastavro似乎并没有真正被使用。AFA
Apache Avro能否在序列化期间处理参数化类型?
当我尝试序列化一个使用泛型的实例时,我发现Avro框架抛出了这个异常。
org.apache.avro.AvroTypeException: Unknown type: T
at org.apache.avro.specific.SpecificData.createSchema(SpecificData.java:255)
at org.apache.avro.reflect.ReflectData.createSchema(ReflectData.java:514)
at org.apache.avro.ref
尝试将Kotlin用于利用Apache光束的应用程序时,我收到警告:
@ProcessElement processElement(String, OutputReceiver), parameter of type DoFn.OutputReceiver<Map<String, String>> at index 1: OutputReceiver should be parameterized by java.util.Map<java.lang.String, ? extends java.lang.String>
我假设在实现中的某个地方,他们使用
我在从本地机器向我们的云平台提交Apache光束示例时遇到了问题。
但是当我尝试运行python wordcount示例时,我得到了以下错误:
IOError: Could not upload to GCS path gs://my_bucket/tmp: access denied.
Please verify that credentials are valid and that you have write access
to the specified path.
我观察到,当google-cloud-pubsub (在我的例子中是0.21.1-beta)是一个依赖项时,Apache光束抛出了Jetty ALPN/NPN has not been properly configured错误。有没有不涉及删除google-cloud-pubsub的解决方法。
Apache梁版本- 2.1.1
我正在尝试在Apache光束中运行一个非常简单的程序来测试它是如何工作的。 import apache_beam as beam
class Split(beam.DoFn):
def process(self, element):
return element
with beam.Pipeline() as p:
rows = (p | beam.io.ReadAllFromText(
"input.csv") | beam.ParDo(Split())) 在运行这段代码时,我得到以下错误 .... some more