我有几个很大的训练档案我打算训练。验证数据也是完美的,我认为没有问题,但规模很大。我说的是20GB+。由于内存错误,加载一个文件导致python崩溃。
我试过把文件写成一个,但它太大了
X = np.load('X150.npy')
Y = np.load('Y150.npy')
错误
~\AppData\Roaming\Python\Python37\site-packages\numpy\lib\format.py in read_array(fp, allow_pickle, pickle_kwargs)
710 if isf
我试图将"data.txt“中的数据放入一个numpy数组中,并用matplotlib绘制它。下面是数据的每一行:
"1“11.658870417634 4.8159509459201
大约有一千万行。
我试着把它放到内存映射中,但一直收到这个错误:
ValueError: Size of available data is not a multiple of data-type size.
下面是我使用的代码:
import numpy
import matplotlib
matplotlib.use('Agg')
import matplotlib.pyp
我有一个比内存更大的数据集,我需要处理它。我在这个问题上没有经验,因此任何方向都会有所帮助。
我主要想出了如何将原始数据作为块加载,但我需要对其进行处理并保存结果,这可能也比内存更大。我见过熊猫、矮人和蟒蛇都支持某种形式的memmap,但我不太清楚该如何处理。当使用memmap时,我希望抽象能够使用我的磁盘,就像我使用我的ram和与保存在磁盘上的对象的接口一样,python/numpy/etc对象。但这对我一点用都没有
# Create file to store the results in
x = np.require(np.lib.format.open_memmap('bla.
我的代码生成一个大小为(1,1,n,n,m,m)的numpy数组的列表,其中n可能从50-100变化,m从5-10变化,这取决于当前的情况。列表本身的长度可能高达10,000,并且正在使用代码末尾的泡菜进行写入/转储。对于这些数字的高端或文件大小超过5-6GB的情况,我将从内存错误中解脱出来。下面是这种情况的一个例子,
import numpy as np
list, list_length = [], 1000
n = 100
m = 3
for i in range(0, list_length):
list.append(np.random.random((1, 1, n, n,
我有一个ROIs的Nifti文件,它是一个192 x 192 x 12的数组,希望能够找到整个东西的质心以及12个切片中的每一个。我正在使用
cm = join(dname, 'cardiac_roi.nii')
roi_img = nib.load(cm)
roi_data = roi_img.get_data()
CM = ndimage.measurements.center_of_mass(roi_data)
然后我得到了错误:
TypeError: 'numpy.float64' object is not iterable
当我只尝试一个切片时,也会
我搞不懂的手术看起来就是这样。我一直在常规的Numpy数组上这样做,但是在一个备忘录中,我想知道它是如何工作的。
arr2 = np.argsort(np.argsort(arr1,axis=0),axis=0) / float(len(arr1)) * 100
#This is basically to calculate Percentile rank of each value wrt the entire column
这就是我在正常的numpy数组上使用的。
现在。考虑到arr1现在是一个20 is的内存映射数组,我有几个问题:
1:
arr2 = np.argsort(np.arg
代码:
import scipy as sp
import matplotlib.pyplot as plt
data=sp.genfromtxt("data/train.tsv", delimiter ="\t", dtype="string", comments=None, skip_header=1)
x = data[:,0]
y = data[:,1]
x = x[~sp.isnan(y)]
y = x[~sp.isnan(y)]
DataOfInterest=x["avglinksize"]
EphemeralO
我正在编写基于python2.7中的包的遗传优化算法(目标是很快迁移到python3)。由于这是一个相当繁重的过程,优化的某些部分使用多处理包进行处理。以下是我的程序概要:
配置被读取并保存在config对象中。
在config对象中还进行了一些额外的预计算,并将其保存在其中。
优化开始(种群随机初始化和突变,交叉用于寻找更好的解决方案),其中的一些部分(评估函数)在多进程中执行。
保存结果
对于评估函数,我们需要访问config对象的某些部分(在第2阶段之后保持不变)。因此,我们使用一个全局(常量)变量使不同的核心能够访问它:
from deap import bas
我有内存方面的问题,我想缩小我加载的数据的大小(不幸的是,使用read_stata()不能只有几行)。我能不能更改下面的代码,只对X和y使用一些行,而不是复制一份?这将是,即使暂时失败的目的,我想节省内存,而不是增加我的足迹。或者可能首先缩小数据的大小(如果您指定的大小小于原始大小,“`reshape”是否会在没有副本的情况下执行此操作?)然后再选一些专栏?
data = pd.read_stata('S:/data/controls/notreat.dta')
X = data.iloc[:,1:]
y = data.iloc[:,0]