我正在使用一个大约800个气象站的数据集,每个气象站从1986年到2014年的月气温值。数据分为三列:(1)桩号名称、(2)日期(年和月)和(3) Temp。一般而言,数据如下所示:
STATION DATE TEMP
Station 1 198601 -15
Station 1 198602 -16
Station 1 201401 -10
Station 1 201402 -14
Station 2 198601 -11
Station 2 198602 -9
Station 2 201401 -5
Station 2 201402 -4
我需要
我有两张表:一张是大城市附近的气象站列表,一张是距离城市的距离,另一张是每个气象站的平均天气。我想做一个连接,比如显示离旧金山最近的气象站的天气数据。
示例表距离
select * from distances limit 3;
city | station | distance
----------+-------------+-----------
New York | USC00280721 | 62.706849
New York | USC00280729 | 91.927548
New York | USC00280734 | 91.865147
示例
我正在寻找一个更好的存储,写入和读取气象数据(约30 GB的原始文本格式)。
目前我正在使用NetCDF文件格式来存储天气记录。在这个NetCDF文件中,我有三个维度:time、climate variables、locations。但是维度顺序是我的任务的关键约束(见下文)。
第一项任务是每天更新大约3000个气象站的天气记录。维度顺序(time, var, name)提供了最好的写入性能,因为新的数据将添加到NetCDF文件的末尾。
第二项任务是读取气象站的所有每日天气记录,以进行预案分析。维度顺序(name, var, time)提供了最佳的读取性能,因为一个站点的所有记录都存储在一起。