我希望每个股票的数据可以在10秒内处理,合并成一个大文件,最后输出到csv。因为使用熊猫会受到我笔记本电脑记忆的限制,如果我想在熊猫身上做的话,我需要做很多读csv/ to _csv的工作。我认为这将占用时间,所以我选择了这样一种方式:(1)我使用pyspark读取所有的csv文件,生成一个大文件df。(2)我从df中获得了股票列表。然后进行迭代,每次我选择一个股票数据的pyspark,把它转移到熊猫数据中,在熊猫中计算它。最后,将该文件输出到本地文件中。
现在的问题是程序运行速度非常慢,对于一些股票,它用2分钟来进行处理。我<e