我有一个包含大约10M条记录的表,其中每条记录都是一个ID和一定的概率(范围在0到1之间)。所有ID都是唯一的。我正在尝试将这个10M数据集分解为1000个bin -这意味着每个bin中将有10k条记录。但我想根据概率来计算这些箱子,因此我首先按照概率的降序排列表格,然后尝试创建箱子。record and then create 1000 groupsselectceiling(1000.0*ROW_NUMBER() over(orderprediction
因为我不允许在同一个线程中问我的问题,而另一个人有同样的问题(但不使用模板),所以我正在创建这个新线程。我不能做这么多,因为我不能在模板中选择光束版本。$DatasetServiceImpl.insertAll(BigQueryServicesImpl.java:803)
at org.apache.beam.sdk.io.
奇怪的是,失败的步骤是不同的,一个是BigQuery输出,另一个是云存储输出。以下是我们正在接收的日志消息:Processing stuck in step <STEP_NAME>/StreamingInserts/StreamingWriteTables:103)
at org.apache.beam.sdk.io.gcp.bigquery.StreamingWriteFn$DoFnInvoker.invokeFinishBundle(UnknownWriteShardsI