背景:我们目前在亚马逊网络服务S3上存储我们的文件(主要是图像)。在我们的客户端应用程序上,需要将一批文件(500+文件)一起上传到s3,在上传文件之前,我们总是通过用文件id with S3来检查这些文件在S3中是否存在,并逐个查看头部是否存在(假设没有其他方法可以检查客户端上是否存在文件我们的尝试:在亚马逊网络服务上,我们创建了一个存储在DynamoDB(云数据库)上的索引表,用于跟踪当前存在S3存储桶的所有文件名(假设每个文件的文件名是唯一的)(例如,使用lambda插入和删除文件插入和删除记录我们
我的用例是让用户将数据上传到云存储-> Pipeline (Process csv to json) -> Big Query。我知道云存储是有界的集合,所以它代表了批量数据流。我想要做的是保持流水线在流模式下运行,一旦文件上传到云存储,它就会通过流水线进行处理。使用watchfornewfiles可以做到这一点吗?