我有一个问题,与LinearRegressionWithSGD在火花的MLlib。我用他们的例子从这里安装https://spark.apache.org/docs/latest/mllib-linear-methods.html (使用Python )。
在他们的例子中,所有的特征几乎都是缩放的,平均值在0左右,标准偏差在1左右。现在,如果我用10倍的非标度,回归中断(给出nans或非常大的系数):
from pyspark.mllib.regression import LabeledPoint, LinearRegressionWithSGD
from numpy import array
# Load and parse the data
def parsePoint(line):
values = [float(x) for x in line.replace(',', ' ').split(' ')]
# UN-SCALE one of the features by a factor of 10
values[3] *= 10
return LabeledPoint(values[0], values[1:])
data = sc.textFile(spark_home+"data/mllib/ridge-data/lpsa.data")
parsedData = data.map(parsePoint)
# Build the model
model = LinearRegressionWithSGD.train(parsedData)
# Evaluate the model on training data
valuesAndPreds = parsedData.map(lambda p: (p.label, model.predict(p.features)))
MSE = valuesAndPreds.map(lambda (v, p): (v - p)**2).reduce(lambda x, y: x + y) / valuesAndPreds.count()
print("Mean Squared Error = " + str(MSE))
print "Model coefficients:", str(model)
所以,我想我需要做功能缩放。如果我做了预缩放,它可以工作(因为我回到了缩放功能)。但是,现在我不知道如何在原始空间中得到系数。
from pyspark.mllib.regression import LabeledPoint, LinearRegressionWithSGD
from numpy import array
from pyspark.mllib.feature import StandardScaler
from pyspark.mllib.feature import StandardScalerModel
# Load and parse the data
def parseToDenseVector(line):
values = [float(x) for x in line.replace(',', ' ').split(' ')]
# UN-SCALE one of the features by a factor of 10
values[3] *= 10
return Vectors.dense(values[0:])
# Load and parse the data
def parseToLabel(values):
return LabeledPoint(values[0], values[1:])
data = sc.textFile(spark_home+"data/mllib/ridge-data/lpsa.data")
parsedData = data.map(parseToDenseVector)
scaler = StandardScaler(True, True)
scaler_model = scaler.fit(parsedData)
parsedData_scaled = scaler_model.transform(parsedData)
parsedData_scaled_transformed = parsedData_scaled.map(parseToLabel)
# Build the model
model = LinearRegressionWithSGD.train(parsedData_scaled_transformed)
# Evaluate the model on training data
valuesAndPreds = parsedData_scaled_transformed.map(lambda p: (p.label, model.predict(p.features)))
MSE = valuesAndPreds.map(lambda (v, p): (v - p)**2).reduce(lambda x, y: x + y) / valuesAndPreds.count()
print("Mean Squared Error = " + str(MSE))
print "Model coefficients:", str(model)
所以,这里我有变换空间中的所有系数。现在我怎么去原来的地方?我也有StandardScalerModel对象的scaler_model。但我无法从中得到任何手段或差异。这个类唯一的公共方法是transform,它可以将点从原始空间转换到转换。但我不能让它倒转。
发布于 2015-12-06 06:06:50
我刚刚遇到了这个问题。如果训练数据中的f(x) = x
值较高(>3),则模型甚至无法学习x
。太可怕了。
我认为,与其缩放数据,另一种选择是更改步骤大小。这是在星火-1859年中讨论的。从那里转译:
在Lipschitz常数
L
上,步长应小于1。对于二次损失和GD,最优收敛发生在stepSize = 1/(2L)
。火花有一个(1/n)
乘子的损失函数。 假设您有n = 5
数据点,最大的特性值是1500
。所以L = 1500 * 1500 / 5
。最优收敛发生在stepSize = 1/(2L) = 10 / (1500 ^ 2)
。
最后一个等式甚至没有意义(我们是如何在分子中得到2的?)但是我从来没有听说过Lipschitz常数,所以我没有资格去修正它。无论如何,我认为我们可以尝试不同的步长,直到它开始工作。
发布于 2015-07-10 12:50:07
要重新表述您的问题,您需要找到解方程的截距I
、系数C_1
和C_2
:Y = I + C_1 * x_1 + C_2 * x_2
(其中x_1
和x_2
没有缩放)。
让i
作为mllib返回的拦截。同样,让c_1
和c_2
是mllib返回的系数(或权重)。
让m_1
是x_1
的非标度平均值,m_2
是x_2
的非标度均值。
设s_1
为x_1
的未标度标准差,s_2
为x_2
的未标度标准差。
然后是C_1 = (c_1 / s_1)
,C_2 = (c_2 / s_2)
,和
I = i - c_1 * m_1 / s_1 - c_2 * m_2 / s_2
这可以很容易地扩展到3个输入变量:
C_3 = (c_3 / s_3)
和I = i - c_1 * m_1 / s_1 - c_2 * m_2 / s_2 - c_3 * m_3 / s_3
发布于 2015-12-08 16:05:28
正如您所指出的,StandardScalerModel对象不公开std和平均属性。有一个问题,https://issues.apache.org/jira/browse/SPARK-6523
你可以很容易地自己计算。
import numpy as np
from pyspark.mllib.stat import Statistics
summary = Statistics.colStats(features)
mean = summary.mean()
std = np.sqrt(features.variance())
这些都是Scaler使用的相同的平均值和std。您可以使用python魔术dict验证这一点。
print scaler_model.__dict__.get('_java_model').std()
print scaler_model.__dict__.get('_java_model').mean()
https://stackoverflow.com/questions/30981471
复制