将清理后的文本数据拆分成训练和测试数据集可以通过以下步骤实现:
from sklearn.model_selection import train_test_split
# 假设data为清理后的文本数据
X = data["文本内容"] # 特征数据
y = data["标签"] # 标签数据
# 将数据集拆分成训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
在以上代码中,X
为文本数据的特征,y
为文本数据对应的标签。train_test_split
函数根据指定的比例(test_size
参数)将数据集拆分成训练集和测试集。random_state
参数用于设置随机种子,保证每次运行代码时得到的随机结果一致。
X_train
和y_train
为训练集的特征和标签数据,X_test
和y_test
为测试集的特征和标签数据。可以将这些数据用于训练模型和评估模型的性能。在腾讯云产品中,相关的服务可以包括:
请注意,以上仅为示例,实际情况下可以根据具体需求选择不同的产品和服务。
领取专属 10元无门槛券
手把手带您无忧上云