有没有一种方法可以在python中使用数据集中的变量计数作为预测变量来运行线性回归？

是的，可以使用Python中的数据集中的变量计数作为预测变量来运行线性回归。在线性回归中，预测变量通常是连续的数值型变量，但是如果你想使用数据集中的变量计数作为预测变量，你可以将其视为离散的数值型变量。

首先，你需要将数据集中的变量计数作为一个特征列添加到你的数据集中。你可以使用pandas库来读取和处理数据集。假设你的数据集是一个CSV文件，你可以使用以下代码将其读取到一个pandas的DataFrame中：

import pandas as pd

# 读取CSV文件
data = pd.read_csv('your_dataset.csv')

# 添加变量计数作为特征列
data['variable_count'] = data.groupby('your_variable')['your_variable'].transform('count')

在上面的代码中，你需要将'your_dataset.csv'替换为你的数据集文件的路径，'your_variable'替换为你想要计数的变量列的名称。

接下来，你可以使用scikit-learn库来运行线性回归模型。首先，你需要将数据集分为训练集和测试集：

from sklearn.model_selection import train_test_split

# 分割数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(data['variable_count'], data['target_variable'], test_size=0.2, random_state=0)

在上面的代码中，'variable_count'是你添加的变量计数特征列，'target_variable'是你想要预测的目标变量列。

然后，你可以创建一个线性回归模型并拟合训练集数据：

from sklearn.linear_model import LinearRegression

# 创建线性回归模型
model = LinearRegression()

# 拟合训练集数据
model.fit(X_train.values.reshape(-1, 1), y_train)

在上面的代码中，我们使用了sklearn的LinearRegression类来创建线性回归模型，并使用fit()方法拟合训练集数据。注意，我们将X_train转换为二维数组，因为LinearRegression类期望输入是二维数组。

最后，你可以使用训练好的模型来进行预测并评估模型的性能：

# 预测测试集数据
y_pred = model.predict(X_test.values.reshape(-1, 1))

# 评估模型性能
from sklearn.metrics import mean_squared_error

mse = mean_squared_error(y_test, y_pred)

在上面的代码中，我们使用predict()方法对测试集数据进行预测，并使用mean_squared_error()函数计算预测结果与真实结果之间的均方误差（MSE）作为模型性能的评估指标。

这是一个基本的使用数据集中的变量计数作为预测变量来运行线性回归的方法。根据你的具体需求，你可能需要进一步调整和改进模型，例如添加其他特征、进行特征工程、使用正则化等。腾讯云提供了多种与机器学习和数据分析相关的产品和服务，例如腾讯云机器学习平台（https://cloud.tencent.com/product/tcmlp）和腾讯云数据智能（https://cloud.tencent.com/product/tcdi）等，你可以根据具体需求选择适合的产品和服务来支持你的线性回归任务。

如何将预测变量的值限制为正？

、、

我正在使用Python线性回归来预测一家食品配送公司的每周订单。但我的一些命令是负面的。有没有办法限制预测值大于0，即正数？

浏览 0提问于2019-07-14得票数 0

1回答

带AR误差的线性回归模型

、、

有没有python包(statsmodel/scipy/pandas/etc...)具有在python中估计具有自回归误差的线性回归模型的系数的功能，例如下面的SAS实现？

浏览 2提问于2016-04-12得票数 2

1回答

有没有办法在SPSS中不选择逻辑回归的参考类别？

、、

当在SPSS中进行逻辑回归时，有没有一种方法可以删除自变量中的参考类别，以便所有这些变量都可以平等地相互比较，而不是与参考类别进行比较？

浏览 5提问于2020-03-13得票数 0

1回答

线性回归假设

简单地说，线性回归的假设是什么？我只想知道我什么时候可以将线性回归模型应用到我们的数据集中。

浏览 0提问于2018-05-29得票数 9

3回答

logistic回归实际上是一种回归算法吗？

、

回归的通常定义(据我所知)是从给定的一组输入变量中预测一个连续的输出变量。 Logistic回归是一种二元分类算法，因此它产生了一个分类输出。它真的是一个回归算法吗？如果是，为什么？

浏览 0提问于2014-06-19得票数 23

回答已采纳

1回答

何时使用线性或logistic回归？

、、

但是，当我选择线性或Logistic回归时，我还没有明确的概念。另外，我什么时候可以说线性或logistic回归表现更好？特别是，我想知道什么时候应该选择线性回归，什么时候选择Logistic回归？

浏览 0提问于2015-12-13得票数 4

2回答

广义线性方法(GLM)能在回归分析中处理预测变量之间的共线性吗？

、、、

我是机器学习的初学者，我研究过模型的预测变量之间的共线性是一个很大的问题，因为它会导致不可预测的模型行为和一个很大的错误。但是，是否有一些模型(比如GLM)与经典的线性回归不同，可能是“好的”共线性模型？传统的线性回归假设其自变量之间没有相关性。之所以会出现这个问题，是因为我做了一个项目：“如果输入特性是相互关联的，那么最好使用广义线性模型，因为它们的性能要比线性回归好。” 有人能解释一下吗？

浏览 0提问于2020-06-20得票数 2

2回答

预测线性回归模型预测准确的可能性

、、

因此，要设置这个问题：我有一个数据集，标签数据如颜色，品牌和质量作为自变量和因变量是RRP (价格)。我用这些数据建立了一个线性回归模型，可以用自变量预测因变量(我使用的是科学学习，所以只需使用model.predict )。这给我带来了重大的问题，我不确定这是否是正确的处理方法，我也不确定这是否会妨碍我获得预测变量精确值的目标。是否有一种方法来计算预测价格的潜在准确性？在我看来，如果我要求模型对品牌x和质量y进行预测，而模型知道品牌x和质量总是会产生严格的价格范围，那么准确性可能会更高吗？

浏览 0提问于2020-12-02得票数 0

回答已采纳

1回答

我如何解释一个具有显着系数(p值接近于零)和R2接近于零的模型？

、、

对外面的统计专家说:我很头疼，因为我想到了回归的解释。如果您测试异常，您可以通过在回归中使用虚拟变量D来进行测试。假设你想找出某一天的反应是否不正常。因为我们有种感觉，我们在周五会赚更多的钱。回归过程如下所示：回报/收益=a+ b1 DMonday + b2 DTuesday + b3 DWednesday + b4 DThursday + b5 DFriday +e 当然，你的收入取决于其他因素，比如客户数量，价格水平，天气，...who知道…… 假设b5的p值接近于零。但是R2也是零。我如何解释这个结果？说整个模型不能预测收益，因为R2为零！？对我来说很有意义。另一方面，我可以说星期

浏览 37提问于2020-11-06得票数 0

2回答

如何用Scikit学习来预测分类变量和连续变量的组合？

、、

我有一个具有大量预测变量的数据集，我希望使用它们来预测一些输出变量。然而，我想预测的一些事情是绝对的，其他的是连续的；我想要预测的事情并不是独立的。比如，学习如何混合分类器和回归函数，这样我就可以预测和解开这些变量了吗？(我目前正在研究梯度提升分类器/回归器，但可能有更好的选择。)

浏览 0提问于2021-06-14得票数 1

2回答

在SPSS中，线性回归是否与普通最小二乘法相同？

、、、

我想使用线性回归模型，但我想使用普通最小二乘法，我认为这是一种线性回归。我使用的软件是SPSS。它只有线性回归、偏最小二乘和两阶段最小二乘。我不知道哪一个是普通最小二乘(OLS)。

浏览 4提问于2009-11-22得票数 9

回答已采纳

1回答

Logistic回归的搜索/预测时间复杂度是多少？

、、

我正在研究机器学习算法的时间复杂性，我无法找到用于预测新输入的Logistic回归的时间复杂性。我读过，对于分类是O(c*d) c-是类数，d是维数，我知道对于线性回归，搜索/预测时间复杂度是O(d)。你能解释一下Logistic回归的搜索/预测时间复杂度是什么吗？提前谢谢你其他机器学习问题的示例：

浏览 2提问于2019-01-17得票数 10

回答已采纳

3回答

特征越多，线性模型越完善。

、

我需要更多地了解特性数量与线性模型回归之间的关系，基于Andreas C. Müller和Sarah Guido所著的“机器学习与Python入门”一书第47页的这一段：对于具有许多特征的数据集，线性模型可能非常强大。特别是，如果你有比训练数据点更多的特征，那么任何目标y都可以完美地建模(在训练集上)为一个线性函数。它是如何用线性代数来解释的？谢谢

浏览 0提问于2018-08-04得票数 0

回答已采纳

3回答

我可以对相同的数据集先应用“分类”，然后再应用“回归”吗？

、、、、

我是数据科学的初学者，需要一个主题的帮助。我有一个关于某机构客户的数据集。我的目标是首先找出哪些客户将向该机构付款，然后找出付费客户将支付多少钱。在这种情况下，我认为我可以首先通过“分类”找出哪些客户将支付，然后通过应用“回归”来确定将支付多少。因此，首先我想要应用“分类”，然后将“回归”应用于此输出。我该怎么做呢？

浏览 0提问于2020-11-14得票数 1

1回答

回归分析与最小二乘法关系？

、

我想知道回归分析在哪里使用最多，它的竞争对手方法是什么，最小二乘法与回归分析的关系如何。

浏览 0提问于2021-02-12得票数 -1

回答已采纳

3回答

岭与线性回归的差异

、

据我所知，岭回归只是有一个优化问题的损失函数加上正则化项(L2范数在岭的情况下)。但是，我不确定损失函数是否可以用非线性函数来描述，还是需要是线性的。在这种情况下，如果损失函数需要是线性的，那么据我所理解的岭回归，只是执行线性回归加上L2-范数的正则化。如果我错了，请纠正我。

浏览 0提问于2020-03-13得票数 8

回答已采纳

1回答

Python sklearn中有没有用于Non_Linear逻辑回归的模块？

、、、

在这里提供的sklearn包- 中，我们看到了linear_model模块，它很好地解决了logistic regression ML问题。我成功地为数据集实现了这一点，其中的决策边界可以用一条直线分隔。我试着搜索这个库(在上面的guithub链接中)，如果它包含任何相关的模块，但不能。有没有办法处理sklearn中的非线性问题？(除了聚类算法)还有没有其他库可以帮助非线性回归？欢迎提出建议。

浏览 4提问于2017-03-08得票数 3

3回答

对于所有线性分类器，预测算法都是完全相同的吗？

、、、、

对于所有线性分类器和线性回归算法，预测算法都是完全相同的吗？众所周知，任何线性分类器都可以描述为：y = w1*x1 + w2*x2 + ... + c 📷 确定线性分类器参数的方法有两大类(生成和鉴别)：https://en.wikipedia.org/wiki/Linear_分类器。线性判别分析(或Fisher线性判别)，朴素贝叶斯分类器 Logistic回归、感知器、支持向量机问:线性分类器只在学习算法中有所不同，但它们在预测y = w1*x1 + w2*x2 + ... + c时也是这样吗？如果我使用一种训练方法(例如带有线性核函数的支持向量机)，那么我是否可以使用其他方法进行

浏览 0提问于2019-01-31得票数 5

回答已采纳

1回答

用于回归的数据集

使用语言线索自动识别会话中的人格和文本www.aaai.org >Jair-3012PDFWeb结果使用语言线索自动识别人格。在阅读论文的过程中，我发现得分是通过回归模型得到的。但是，我找不到包含评估分数的数据。我可以看到包含1/0 (分类)文本的文章数据集。如果我漏掉了什么，请告诉我。谢谢,

浏览 0提问于2021-03-01得票数 1

1回答

使用Python进行套索回归:简单问题

、、、、

假设我有一个值表： df = pd.DataFrame({'Y1':[1, 2, 3, 4, 5, 6], 'X1':[1, 2, 3, 4, 5, 6], 'X2':[1, 1, 2, 1, 1, 1], 'X3':[6, 6, 6, 5, 6, 4], 'X4':[6, 5, 4, 3, 2, 1]}) 我想使用所有这些值作为我的测试集进行简单的套索回归，其中Y1是因变量，所有的X1...X4都是自变量。我试过使用以下几种方法： from sklearn.linear_model

浏览 27提问于2019-01-24得票数 2

回答已采纳

2回答

线性回归中的虚拟变量陷阱

、、

我有数据集，其中包含分类属性州，可以采取纽约，加利福尼亚州和佛罗里达州。在用虚拟变量对这些值进行编码之后，为什么我们需要删除一个变量？有人能解释一下什么是线性回归中的虚拟变量陷阱情况吗？为什么我们需要掉一个变量才能摆脱困境呢？

浏览 0提问于2018-03-10得票数 3

3回答

我应该使用哪种类型的回归

、、

我有一个数据集，提供关于不育和原因的数据。数据集主要为0,1以表示“是”和“否”。然而，有些字段有“有时”、“经常”，它们将由-1或2表示。我只学会了如何处理分类数据，即1,0和数字数据。所以我的问题是，除了1和0之外，还有更多的选项，我应该使用哪种类型的回归？Logistic回归还是线性回归？

浏览 0提问于2018-03-04得票数 1

回答已采纳

1回答

主成分的高回归系数并不能解释很大的方差，是否意味着我的数据不是一个很好的预测指标？

、

这个问题没有什么可补充的。从本质上说，我有一些数据，我将其简化为4个主成分，其中的前两个部分解释了数据中99%的方差。在使用这4个分量建立线性回归模型时，分量3和4的系数在大小上显著高于分量1和2 (20级)。不需要看模型的准确性，这些信息是否足以得出结论:我的数据是因变量的一个非常弱的线性预测器？

浏览 0提问于2018-06-25得票数 0

2回答

减少变量之间的依赖

、

我正在尝试执行一个多元线性回归模型： $$y_i =β_0 +β_1x_{i1} +β_2x_{i2} +.+β_px_{ip} +ε_i$$ 其中$$x_{i1}、x_{i2}、.、x_{ip}$$相互高度相关(VIFs可以低到5，高到10)。我只是想知道是否存在一个具有以下属性的过程： ( 1)降低变量的共线性(例如，过程结束后VIFs应低于5) ( 2)程序后的变量应保持原意/解释。(因此PCA和FA退出)。 3)不删除任何变量。我应该有所有的原装..。(这样套索和岭就出来了)

浏览 0提问于2018-08-02得票数 1

2回答

如何使scikit学会寻找简单的非线性关系

、、

我在熊猫的数据中有一些数据(虽然熊猫不是这个问题的重点)。作为一个实验，我将ZR列作为列Z除以R列，作为使用scikit学习的第一步，我想看看我是否能够从其他列中预测ZR (这应该是可能的，因为我刚刚从R和Z中获得了ZR)。我的脚步。 columns=['R','T', 'V', 'X', 'Z'] for c in columns: results[c] = preprocessing.scale(results[c]) results['ZR'] = preprocessing.sca

浏览 4提问于2014-03-07得票数 8

1回答

两个预测器X1和X2之间的散点图

给出两个预测器X1和X2之间的以下散点图： ? 有没有办法得到这样的线性模型的参数数量？ model <- lm(Y~X1+X2) 我想以某种方式得到数字3 (intercept + X1 + X2)。我在lm，summary(model)和anova(model)返回的结构中寻找类似这样的东西，但我没有弄清楚。以防我得不到答复，我会继续使用dim(model.matrix(model))[2]谢谢我在想，X1和X2是相关的。共线性会降低回归系数估计的准确性。也许由于共线性的存在，X1或X2变量的重要性可能被掩盖了？尽管他们可能都是正确的谢谢!

浏览 19提问于2019-02-08得票数 0

1回答

在Parsnip中配置带有偏移量的XGBoost泊松回归

、、

我试图使用parsnip来指定一个配方，以适应带有日志偏移量的xgboost泊松回归模型。要设置泊松回归，我可以在set_engine中指定一个选项，它工作得很好： # Specify recipe my_recipe <- recipe(training_df, Count ~.) %>% # Remove covariates that are 80% correlated step_corr(all_predictors(), threshold = 0.8) %>% step_center(all_predictors(),

浏览 5提问于2020-07-20得票数 2

2回答

具有虚拟/分类变量的线性回归

、、、、

我有一组数据。我已经使用pandas将它们分别转换为虚拟变量和分类变量。所以，现在我想知道，如何在Python中运行多元线性回归(我正在使用statsmodel)？是否有一些考虑因素，或者也许我必须以某种方式在我的代码中指出变量是虚拟的/分类的？或者，也许变量的转换就足够了，我只需以model = sm.OLS(y, X).fit()？运行回归。我的代码如下： datos = pd.read_csv("datos_2.csv") df = pd.DataFrame(datos) print(df) 我明白了： Age Gender Wage Job

浏览 3提问于2018-06-07得票数 10

回答已采纳

1回答

异常检测系统

、、、、

我需要一个健全的检查。我想建立一个异常检测系统。我计划采用的逻辑如下：在过去发现异常使用季节性混合极端学生偏差测试。出现异常(1异常，0趋势)。对相关变量运行几种算法(自动编码器、支持向量机、Logistic回归、朴素贝叶斯、拉索回归等)，并对模型进行验证。二进制化过程有意义吗？

浏览 0提问于2019-04-26得票数 1

回答已采纳

1回答

如何拟合logistic回归模型？

、、、

本文试图对logistic回归模型进行拟合，但存在误差。代码： from sklearn.linear_model import LogisticRegression model = LogisticRegression() model.fit(x_train, y_train) 错误： This solver needs samples of at least 2 classes in the data, but the data contains only one class: 0

浏览 1提问于2022-10-03得票数 -2

1回答

找到3000平方英尺的房子，3间卧室和40岁的房子吗？

、

有这样一个数据集 area bedroom age price 2600 3 20 550000 3000 4 15 565000 ... 现在的问题是找到2500 sft，4间卧室和5年楼龄的房子的价格？找到有3000英尺、3间卧室和40年历史的家吗？我知道第一个问题可以用线性回归来解决。我该怎么回答第二个问题？

浏览 0提问于2021-02-23得票数 0

2回答

用预测输出的绝对值改进线性回归模型？

、、

我有一个特殊的分类问题，我可以使用Python的abs()函数来改进它。当谈到机器学习时，我还是个新手，我想知道我所做的事情是否真的是“允许的”，可以说，是为了改进回归问题。下面这行描述了我的方法： lr = linear_model.LinearRegression() predicted = abs(cross_val_predict(lr, features, labels_postop_IS, cv=10)) 我尝试了这个解决方案，因为线性回归有时会产生负的预测值，即使在我的特殊情况下，这些预测永远不应该是负的，因为它们是一个物理量。使用abs()函数，我的预测会产生与数据更好的拟合

浏览 0提问于2018-02-10得票数 2

2回答

数据集的预测能力

、、

我正在为本科生读一本关于机器学习的书。实际上，我对线性回归的灵活性感到困惑：有时，线性回归将无法恢复一个好的解决方案的数据集。虽然这可能是因为我们的数据实际上没有预测能力，但它也可能只是表明我们的数据是以不适合线性回归的格式提供的。我在这里读到了一些关于预测能力的问题，我注意到这都是关于模型产生的。当我们谈到数据集的预测能力时，意味着什么？我认为这是因为特性之间没有关系(因为线性回归的目的是学习输入X和输出Y之间的关系)。但我还不相信这个答案。

浏览 0提问于2020-09-03得票数 2

回答已采纳

1回答

学习回归预测结果太好了。我搞砸了什么？

、、、

我们在Azure平台上运行了一些ML模型(最初的拖放系统)。一年多来一切都很好，但我们需要继续前进，这样我们才能更好地扩大规模。所以我正在用scikit用Python重写它们--在木星笔记本上学习和测试它们。好消息/坏消息是，我们需要培训的数据相当少(一个数据库中有几百条记录)。这是非常不完善的数据，作出非常不完美的回归预测，所以误差是预期的。这也没问题。对于这个问题，它是好的。因为问题是，当我测试这些模型时，预测太完美了。我不明白我做错了什么，但我显然做了一些错误的事情。值得怀疑的显而易见的事情(在我的脑海中)是，要么我正在对测试数据进行培训，要么通过相关性发现了一个明显的/完美的因果关

浏览 0提问于2018-07-31得票数 2

回答已采纳

1回答

如何在python中建立多参数线性回归

、

我想问一个关于多参数线性回归模型的问题。问题如下:我们现在有100家公司的数据，对于每一家公司，我都有三个季度的参数A，B，C，D的数据。(我们可以称之为A1，A2，A3，B1，B2，B3..etc)我们假设A和BCD之间存在某种关系(我们还不知道，需要找到)，现在我们需要预测第四季的A，即A4…… 我的方法是用普通的最小二乘公式计算关系，并以A4=x1*B4+x2*C4+x3*D4的形式得到最终的公式。我通过简单地对B，C，D进行线性回归得到B4，C4，D4，但问题是我用这种方式得到的A4比仅仅对A进行线性回归更糟糕。有人能告诉我这个问题的更好的解决方案吗？谢谢

浏览 2提问于2017-08-27得票数 0

2回答

多元线性回归最重要特征的选择

、、、、

我有一套25个特征。我想为我的模型选择最好的功能。最初，我研究了特性与响应的相关性，只考虑那些高度相关的特性，并运行一个回归模型。然后，使用该模型，我将根据测试数据预测结果，并将其与实际(度量RMSE)进行比较，这将是我评估它的方法。然后，我可以添加每个特性，以减少与特征集响应的相关性，并继续计算上面的内容。还有其他方法可以选择功能吗？例如，我是否可以运行一个随机森林并使用其中的特性重要性报告来选择最重要的特性？然后再做个回归？比较每个回归模型与下一个回归模型的最佳方法是什么？有太多的度量标准: AIC，BIC，ADJ R^2，我不知道哪一种是比较最简单的方法.实际上，在sm.OLS函数

浏览 0提问于2021-02-08得票数 0

回答已采纳

1回答

用Python中的线性回归分析求权值

、、

下面有一个方程，它是图像的噪声质量度量： 📷 如果BIQS是1，则意味着图像是干净的。否则，如果它是在0和1之间，这意味着图像可能包含模糊和噪声。BIQS的值越小，图像就越脏。给出了反映图像质量的w1、w2、w3和w4的权重值，给出了反映图像质量的值Blur_mean、Blur_noise、Noise_mean和Noise_ratio。权重反映了每个术语(Blur_mean, Blur_noise, Noise_mean and Noise_ratio )对图像质量总评分的贡献。例如： Blur_mean Blur_noise Noise_mean Nois

浏览 0提问于2020-04-03得票数 1

2回答

一般非线性回归的预测区间

、、

我一直在研究一个预测模型。对于每个预测，我们需要提供一个分数来表示对我们的预测的信心。所以我看预测区间(PI)。在线性回归中，我相信这些都是可以得到的，并且有很好的记录.然而，对于非线性回归(如svr、gbr或其他的回归黑箱方法)，我还没有找到很多参考。下面给出了我看到的两种方法： 1)利用套袋法，对每个新的数据点进行多点预测，然后根据预测值在每个新点的分布，得到预测的区间。 2)用分位数回归法得到新点的上、下界。就我个人而言，我确实喜欢套袋的方法，虽然我不觉得很信服。因此，我正在与社区接触，以获得一个普遍的意见或一些其他的想法，我至今还没有看到。

浏览 0提问于2019-05-02得票数 1

回答已采纳

1回答

分类器与精度

、、、、

我想问你如何使用分类器和确定模型的准确性。我有我的数据集，我已经清理了文本(删除断点，标点符号，删除空行，.)。然后我把它分成火车和测试。由于我想确定一个电子邮件是否是垃圾邮件，我已经使用了常见的分类器，即朴素贝叶斯，支持向量机和逻辑回归。在这里，我只是包括我的火车和测试数据集:没有其他！我正在使用Python运行此分析。我的问题是:应该足够了还是应该实现新的算法？如果你能给我一个例子，说明一个已经存在的算法是如何被改进的，那也是很好的。我阅读了大量关于文本分类准确性的文献，在所有的论文中，作者使用支持向量机、Na ve Bayes、logistic回归等方法对垃圾邮件进行分类。但我不知道

浏览 0提问于2020-08-14得票数 0

回答已采纳

1回答

随机森林比线性回归更糟糕？这是正常的，原因是什么？

、、、

我正在尝试使用机器学习来预测数据集。这是一个具有180个输入特征和1个连续值输出的回归问题.我尝试比较深度神经网络、随机森林回归和线性回归。正如我所预期的那样，三隐层深层神经网络的性能优于其他两种方法，均方根误差(RMSE)为0.1。然而，我意外地发现，随机森林的表现甚至比线性回归还要糟糕(RMSE为0.29比0.27)。在我看来，随机林可以发现更复杂的特征之间的依赖关系，以减少错误。我尝试调优随机森林的参数(树数、最大特性、max_depth等)。我也尝试过不同的K-交叉验证，但性能仍然低于线性回归. 我在网上搜索，有一个答案说，如果特征对协变量有平滑的、近乎线性的依赖，线性回归可能会表现

浏览 5提问于2018-01-04得票数 2

回答已采纳

1回答

包含人工神经网络的线性回归

、、

我正在研究一个模型，它将根据其他人的观点预测一个数字。为此，我将使用Sklearn中的线性回归。例如，我从5个代理那里收集了他们在每次迭代中最后一次更改的数据，如果他们还没有插入数据，数据就包含Nan，直到他们第一次更改。数据看起来像这样： a1 a2 a3 a4 a5 target 1 nan nan nan nan 3 4.5 2 4 nan nan nan 3 4.5 3 4 5 nan nan 3 4.5 4 4 5 5 nan 3 4.5 5 4 5

浏览 1提问于2017-05-04得票数 0

1回答

在将我的预测值与真正的标签值相对应之后，我没有完全得到我想要的答案。

、

我下载了关于葡萄酒质量的数据，并试图运行一个回归模型来预测葡萄酒的质量，但是我没有收到我预期的地块。葡萄酒质量的平均绝对误差约为0.5，因此我认为True vs预测的价值图看起来非常相似，但我得到的图表与我预期的不太一样。当您使用离散参数时，会发生这种情况吗？因为我对此很陌生，我的印象是，如果你的预测值和真值非常相似的话，这个最后的图总是类似于你的标准线性图。 📷 这是指向我的代码的链接，如果有帮助的话：https://colab.research.google.com/drive/1mxRIx5ufVsA0ljdTpL0Ud0qm2y39eyGX

浏览 0提问于2019-05-25得票数 3

2回答

Python简单回归图

我正在学习python，我想在.csv数据集上执行一个简单的线性回归。我已经成功导入了数据文件。如果我有8个五年的数据，我想做简单的线性回归，我该怎么做呢？数据是按县/州列出的。所以我的头是县，州，1980,1985等等。感谢任何人的帮助。

浏览 75提问于2018-08-11得票数 -2

1回答

在海运中，regplot和lmplot有什么区别？

、、

python中的Seaborn库建议使用lmplot或regplot来可视化两个变量之间的回归。这两个情节有什么区别？我得到的结果略有不同，但我不知道为什么！

浏览 0提问于2019-01-18得票数 12

回答已采纳

3回答

为什么多元回归有这么多的假设，而先进的机器学习算法几乎没有？

、

我在分析一个房地产数据集。虽然所有的回归假设都失败了，但我的XGBoosting模型却蓬勃发展。我是不是遗漏了什么？在这种情况下，XGBoost仅仅是一个优越的模型吗？数据集约有67.000个观测值和30个变量。

浏览 2提问于2019-07-28得票数 0

回答已采纳

1回答

有线性数据和非线性数据吗？

、、

在做机器学习项目时，我们听说逻辑回归对“线性数据”很好，决策树在“非线性数据”中运行良好。然而，线性和非线性数据的概念是没有意义的。对我来说，只有线性可分数据和非线性可分数据对我来说是有意义的，因为它是一个线性函数，因此逻辑回归对“线性可分数据”很有效。在数学中，线性函数是一次多项式，所有其他非线性函数都被认为是非线性函数。线性数据和非线性数据究竟是什么？

浏览 0提问于2021-05-19得票数 1

回答已采纳

4回答

具有字符串/分类特征(变量)的线性回归分析？

、、、、

回归算法似乎正在处理以数字表示的特性。例如：此数据集不包含分类特性/变量。很清楚如何对这些数据进行回归并预测价格。但现在我想对包含分类特性的数据进行回归分析：有5特性：District、Condition、Material、Security、Type 如何对这些数据进行回归？是否必须手动将所有字符串/分类数据转换为数字？我的意思是，如果我必须创建一些编码规则，并根据这些规则，将所有数据转换为数值。是否有任何简单的方法可以将字符串数据转换为数字，而不必手动创建自己的编码规则？也许Python中有一些库可以用于此？由于“编码不好”，回归模型是否存在某种不正确的风险？

浏览 3提问于2015-11-30得票数 73

回答已采纳

3回答

什么样的算法可以用来预测板球比赛的结果？

、、、

我正在做一个项目来预测板球比赛的结果，我有数据表明哪些比赛是由谁为ODI赢得的。Espn数据哪种算法可以用来预测即将到来的比赛的结果？二次回归是个好主意吗？或者，基于概率的预测算法，如马尔可夫算法，是普遍使用的吗？还有其他我应该使用的算法吗？因此，基本上，我想知道我应该使用哪种算法，我最终将在C++中实现，但我将首先在R或python中实现。 P.S.:- 我是这个领域的新手，所以如果这个问题听起来太蠢，请原谅。到目前为止，我在数据分析方面已经学会了回归。

浏览 0提问于2016-04-12得票数 0

2回答