在文章开始之前,推荐一篇值得阅读的好文章!感兴趣的也可以去看一下,并关注作者!
今日推荐:AI 实战篇:Spring-AI再更新!细细讲下Advisors
文章链接:https://cloud.tencent.com/developer/article/2466108
通过这篇文章,可以帮助你深入的了解Advisors。本文的重点是深入解析Advisors的概念,这里它与我们当前工作中所使用的一些技术有很多相似之处,能够帮助大家更容易地理解相关内容。因此,我相信通过这部分的讲解,大家将能更好地掌握Spring AI的核心功能。感兴趣的同学可以关注一下。
在机器学习中,分类问题是最常见的一类问题。无论是二分类还是多分类,解决这些问题的算法有很多,其中逻辑回归、Softmax回归和集成学习方法在实际应用中被广泛使用。但在实际数据中,类别不平衡问题可能会影响模型的效果,如何有效地解决这一问题也是一个亟待解决的难题。
概述:逻辑回归(Logistic Regression)是一种用于二分类问题的经典线性分类器,目标是通过训练数据集的特征来预测某一类别的概率。
模型原理: 逻辑回归的核心是使用sigmoid函数将线性组合的输出映射到0,1区间,用于二分类问题:
其中,𝑤是权重,𝑏是偏置,𝑋是输入特征。
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
# 生成数据集
X, y = make_classification(n_samples=1000, n_features=20, n_informative=10, random_state=42)
# 数据分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
# 训练模型
model = LogisticRegression()
model.fit(X_train, y_train)
# 预测
y_pred = model.predict(X_test)
# 评估
print(classification_report(y_test, y_pred))
优缺点:
概述:Softmax回归(Softmax Regression)是逻辑回归的扩展,处理多分类问题。它将输入的线性组合映射到多个类别的概率值。
模型原理: Softmax函数是对逻辑回归的扩展,公式为:
是偏置。
from sklearn.linear_model import LogisticRegression
# 使用Softmax回归处理多分类问题
model = LogisticRegression(multi_class='multinomial', solver='lbfgs')
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))
优缺点:
概述:集成学习是一种通过结合多个弱学习器来提高模型性能的方法。常见的集成学习方法有Bagging、Boosting和Stacking。
from sklearn.ensemble import RandomForestClassifier
# 随机森林分类器
rf = RandomForestClassifier(n_estimators=100)
rf.fit(X_train, y_train)
y_pred = rf.predict(X_test)
print(classification_report(y_test, y_pred))
概述:在现实世界中,很多分类任务会面临类别不平衡的问题,即某一类别的样本数量远远少于其他类别。这会导致模型倾向于预测样本较多的类别,降低模型的整体性能。
解决方法:
from imblearn.over_sampling import SMOTE
# 过采样
smote = SMOTE()
X_res, y_res = smote.fit_resample(X_train, y_train)
# 训练模型
model = LogisticRegression()
model.fit(X_res, y_res)
y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))
我们将通过以下步骤进行分析:
Iris数据集包含150个样本,分别来自3个不同种类的鸢尾花(Setosa、Versicolor、Virginica)。每个样本有4个特征:萼片长度、萼片宽度、花瓣长度和花瓣宽度。目标是根据这些特征来预测鸢尾花的种类。
# 导入需要的库
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt
# 1. 加载Iris数据集
iris = load_iris()
X = iris.data # 特征
y = iris.target # 标签
# 2. 数据分割:80%训练数据,20%测试数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 3. 数据标准化:逻辑回归对特征的尺度比较敏感
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
# 4. 训练逻辑回归模型
logreg = LogisticRegression(max_iter=200)
logreg.fit(X_train, y_train)
# 5. 在测试集上进行预测
y_pred = logreg.predict(X_test)
# 6. 模型评估
print("分类报告:")
print(classification_report(y_test, y_pred))
# 7. 混淆矩阵
cm = confusion_matrix(y_test, y_pred)
print("混淆矩阵:")
print(cm)
# 可视化混淆矩阵
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues", xticklabels=iris.target_names, yticklabels=iris.target_names)
plt.xlabel('Predicted')
plt.ylabel('True')
plt.title('Confusion Matrix')
plt.show()
代码分析
分类报告如下:
混淆矩阵如下:
根据分类报告和混淆矩阵的结果,我们可以得出以下结论:
本文对逻辑回归、Softmax回归、集成学习方法进行了详细分析,并讨论了类别不平衡问题及其解决方法。通过实验验证,选择合适的分类算法和解决方案能够显著提高模型在实际任务中的性能。
希望这篇博客能够为你提供全面的分类问题解决方案,同时帮助理解如何在复杂场景下处理类别不平衡问题,感兴趣的同学别忘了三连哦
挑战与创造都是很痛苦的,但是很充实。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。