我正在学习Python,我正在尝试阅读数百个xml文件,这些xml文件的大小是几个GBs,将它们映射到一个Pandas数据文件并编写一个csv文件。我们的理解是,对于循环和附加在熊猫中,这是一种非常残忍的方法,也是一种低效的方法,但这正是我所处的位置,并且可以通过apply()或其他技术来帮助优化我的迭代工作流。我使用line_profiler突出显示事情最慢的地方,看起来读取xml记录的行最慢,占处理时间的69%左右:
Total
如果我有两个ints数组,例如[100, 50, 32, 23]和[40, 30, 32, 125]以及一个数字50,那么第一个数组中大于这个数的数字应该与第二个数组中相应的索引对一起删除。that is greater than input, remove it and rebuild both arrays, continue
我不知道如何才能知道在哪里或方向,我应该找到一个更有效/更快的方式来做这件事