我们正在探索的用例中,我们可能不得不摄取SCADA/PIMS设备生成的数据。出于安全原因,我们不允许直接连接到OT设备或数据源。因此,该数据具有REST,可用于使用数据。请建议是否可以使用Dataflow或GCP的任何其他服务来捕获这些数据,并将其放入大型查询或任何其他相关目标服务中。如有可能,请分享关于此类要求的任何相关文件/链接。
发布于 2022-04-22 18:52:10
是!
下面是您需要知道的:当您编写Apache管道时,您的处理逻辑位于您创建的DoFn
中。这些函数可以调用任何您想要的逻辑。如果您的数据源是无界的,或者只是大的,那么您将创建一个“可拆分的DoFn
”,它可以由多台工作机器并行和校验读取。您需要弄清楚如何提供精确的REST一次摄取,以及如何不压倒服务;这通常是最困难的部分。
也就是说,您可能希望使用一种不同的方法,比如首先将数据推入Cloud。然后使用读取来自Cloud的数据。这将在设备和数据处理之间提供一个自然的可伸缩队列。
发布于 2022-04-22 19:03:07
您可以使用PubSub捕获数据,并将其引导到Dataflow中处理,然后使用特定的IO连接器保存到BigQuery (或存储)中。
使用Dataflow:https://cloud.google.com/pubsub/docs/stream-messages-dataflow从Pub/Sub中流消息
Google提供的流模板(用于数据流):PubSub->Dataflow->BigQuery:https://cloud.google.com/dataflow/docs/guides/templates/provided-streaming
整体解决方案:https://medium.com/codex/a-dataflow-journey-from-pubsub-to-bigquery-68eb3270c93
https://stackoverflow.com/questions/71966663
复制相似问题