散点图是一种用于展示两个变量之间关系的图表。它通过在二维平面上绘制数据点来表示数据集中各个数据点的分布情况。异常值是指在数据集中与其他数据点相比具有显著不同特征的点,它们可能代表数据收集错误、测量误差或其他特殊情况。
假设我们有一组数据,可以使用Python的matplotlib库来绘制散点图并标记异常值。以下是一个简单的示例代码:
import matplotlib.pyplot as plt
import numpy as np
# 生成示例数据
np.random.seed(0)
x = np.random.normal(0, 1, 100)
y = np.random.normal(0, 1, 100)
# 计算IQR并确定异常值
Q1 = np.percentile(y, 25)
Q3 = np.percentile(y, 75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
# 标记异常值
outliers = (y < lower_bound) | (y > upper_bound)
# 绘制散点图
plt.scatter(x, y, color='blue', label='Normal Data')
plt.scatter(x[outliers], y[outliers], color='red', label='Outliers')
# 添加图例和标签
plt.legend()
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.title('Scatter Plot with Outliers Marked')
# 显示图形
plt.show()
通过上述方法,可以在散点图上有效地标记出异常值,从而帮助进一步的数据分析和决策。
领取专属 10元无门槛券
手把手带您无忧上云