使用IFELSE语句可以根据数据的概率将"PimaIndiansDiabetes"数据集拆分为训练集和测试集。具体步骤如下:
以下是一个示例代码:
import pandas as pd
from sklearn.model_selection import train_test_split
import numpy as np
# 加载数据集
data = pd.read_csv("PimaIndiansDiabetes.csv")
# 定义概率阈值
threshold = 0.8
# 将数据集拆分为训练集和测试集
train_data = pd.DataFrame()
test_data = pd.DataFrame()
for index, row in data.iterrows():
# 生成随机数
random_num = np.random.random()
# 判断随机数是否小于概率阈值
if random_num < threshold:
train_data = train_data.append(row)
else:
test_data = test_data.append(row)
# 输出训练集和测试集的大小
print("训练集大小:", train_data.shape)
print("测试集大小:", test_data.shape)
请注意,以上代码仅为示例,实际应用中可能需要根据具体情况进行适当的修改和调整。
领取专属 10元无门槛券
手把手带您无忧上云