我们使用运行在EMR5.2.0上的Hive将许多文件运行到Dynamo表中。表上提供的吞吐量为每秒3000次写入。
不管Hive脚本中设置的吞吐量百分比如何,我们只能命中2000写。
Hive执行引擎设置为mr,dynamo.throughput.read.percent设置为1.0。我们使用EMR使用命令运行运行步骤。到目前为止,我们还没有找到任何原因,为什么它只使用2/3的供应写。
如有任何建议或帮助,将不胜感激。
编辑以添加单元脚本:
SET hive.execution.engine=mr;
DROP TABLE IF EXISTS s3_import;
DROP TABLE
我有一个火花结构流代码,它从s3桶中读取JSON文件并将其写回s3。输入文件路径格式:
val inputPath = s3://<path>/2022-08-26
输出文件路径格式:
val outputPath = s3://<path>/2022-08-26
代码:
val spark = SparkSession.builder().appName("raw_data").enableHiveSupport().getOrCreate()
val df = spark.readStream.option("startingPositio
可以将属性作为一个索引分区键和另一个索引的排序键吗?
例如,我有一个名为Events的表,其属性为user、status和created_at。
我可以同时创建以下两个GSIs吗
GSI user_status user as partition,status as sort
GSI status_created_at status as partition,created_at as sort