机器学习经典问题系列11-20题
11、在花了几个小时之后,你现在急于建立一个高精度的模型。因此,您构建了5个GBM模型,并认为一个增强算法就能实现这种效果。不幸的是,这两种模型的表现都不如基准评分。最后,您决定组合这些模型。不过,大家都知道集成模型的精度很高,但你很不幸。你错在哪里?
答:正如我们所知,集成学习是基于把弱学习器结合起来创造强学习器的思想。但是,当组合模型不相关时,这些学习器提供了更好的结果。因此,我们使用了5个GBM模型,并没有得到精度的提高,表明模型是相关的即所有的模型都提供相同的信息。
12、kNN与kmeans集群有何不同?
答:不要被名字中的“k”误导。这两种算法的根本区别是k-means本质上是无监督的,而kNN本质上是有监督的。kmeans是一种聚类算法。kNN是一种分类(或回归)算法。kmeans算法将数据集划分为集群,使形成的集群具有同构性,每个集群中的点彼此接近。该算法试图在这些集群之间保持足够的可分离性。由于无监督的特性,集群没有标签。kNN算法尝试根据其周围的k(可以是任何数字)对未标记的观测进行分类。它也被称为懒惰学习者,因为它涉及到最少的模型训练。因此,它不使用训练数据对不可见的数据集进行概化。
13、真阳性和召回率有什么关系?
答:真阳性=召回率。它们是相等的有公式(TP/TP + FN)。
14、你已经建立了一个多元回归模型。你的模型R²不是你想要的。若删除截距项来改进模型,模型R²从0.3变成了0.8。是可能的吗?
答:是的,这是可能的。我们需要理解回归模型中截距项的重要性。截距项表示的是模型预测,没有任何自变量,例如均值预测。公式的R²= 1 -∑(y - y´)²/∑(y - ymean)²。当有截距项时,R²值评估的是你的模型基于均值模型的表现。在没有截距项(ymean)时,分母变大导致∑(y - y´)²/∑(y)²方程的价值变得比实际小,导致更高的R²。
15、在分析模型之后,您的经理已经通知您的回归模型正遭受多重共线性问题。你怎么检查他是不是真的?在不丢失任何信息的情况下,您还能构建更好的模型吗?
答:为了检查多重共线性,我们可以创建一个相关矩阵来识别和删除相关性超过75%的变量(决定一个阈值是主观的)。此外,我们可以使用计算VIF(方差膨胀系数)来检查多重共线性的存在。VIF值= 10表示严重的多重共线性。此外,我们可以使用公差作为多共线性的指标。但是,删除相关变量可能会导致信息丢失。为了保留这些变量,我们可以使用岭回归或拉索回归等惩罚回归模型。此外,我们可以在相关变量中加入一些随机噪声,使变量之间变得不同。但是,添加噪声可能会影响预测精度,因此应该谨慎使用这种方法。
16、岭回归什么时候比拉索回归有利?
答:你可以引用ISLR的作者Hastie, Tibshirani的观点,他断言,在存在少数具有中/大尺寸影响的变量时,使用lasso回归。如果存在许多具有中小规模效应的变量,则使用岭回归。从概念上讲,我们可以说,lasso回归(L1)既进行了变量选择,也进行了参数收缩,而岭回归只进行了参数收缩,最终包含了模型中的所有系数。在有相关变量的情况下,岭回归可能是首选。此外,在最小二乘估计方差较大的情况下,岭回归的效果最好。因此,这取决于我们的模型目标。
17、全球平均气温上升导致全球海盗数量减少。这是否意味着海盗数量的减少导致了气候变化?
答:读完这个问题后,你应该已经明白这是一个经典的“因果关系”。不,我们不能得出海盗数量减少导致气候变化的结论,因为可能有其他因素(潜伏的或混杂的变量)影响这种现象。因此,全球平均气温与海盗数量之间可能存在相关性,但基于这些信息,我们不能说海盗的死亡是因为全球平均气温上升。
18、在处理数据集时,如何选择重要的变量?解释你的方法
答:以下是您可以使用的变量选择方法:
在选择重要变量之前,先删除相关变量;使用线性回归并根据p值选择变量;使用前向选择,后向选择,逐步选择;使用Random Forest, Xgboost和plot variable importance chart;使用套索回归;测量可用特性集的信息增益,并相应地选择前n个特性。
19、协方差与相关的区别是什么?
答:相关性是协方差的标准化形式。协方差很难比较。例如:如果我们计算工资($)和年龄(年)的协方差,我们会得到不同的协方差,因为尺度不相等而无法比较。为了应对这种情况,我们计算相关性,得到-1和1之间的值,而不考虑它们各自的规模。
20、是否有可能捕捉到连续变量和分类变量之间的相关性?如果是,如何?
答:是的,我们可以使用ANCOVA(协方差分析)技术来捕捉连续变量和分类变量之间的关联。
结语:
领取专属 10元无门槛券
私享最新 技术干货