embarked - 腾讯云开发者社区

文章/答案/技术大牛

发布

9个value_counts()的小技巧，提高Pandas 数据分析效率

例如，让我们从 Titanic 数据集中获取“Embarked”列的计数。...>>> df['Embarked'].value_counts() S 644 C 168 Q 77 Name: Embarked, dtype: int64 2、按升序对结果进行排序...>>> df['Embarked'].value_counts(ascending=True) Q 77 C 168 S 644 Name: Embarked, dtype...df['Embarked'].value_counts(dropna=False) S 644 C 168 Q 77 NaN 2 Name: Embarked...例如，让我们按“Embarked”列分组并获取不同“Sex”值的计数。

3.3K2 0

Python人工智能：基于sklearn的数据预处理方法总结

与Survived列，并将其顺序修改为[Age, Sex, Embarked, Survived]： # (2) 只留下Age、Sex、Embarked与Survived列 train_data.drop...下面使用SimpleImputer来处理Age与Embarked的缺失值。...接着，使用SimpleImputer函数的众数填充方法most_frequent，对登船港口属性Embarked的缺失值进行填充，代码如下所示： # (2) 登船港口属性Embarked的缺失值众数填充...# 由于sklearn中能够处理的数据为矩阵，下面得到Embarked矩阵 Embarked = train_data.loc[:, "Embarked"].values.reshape(-1,1)...(Embarked) # 将填充后的Embarked_imp替换到原始的数据中 train_data.loc[:, "Embarked"] = Embarked_imp # 此时再查看Embarked

2.5K1 0

您找到你想要的搜索结果了吗？

是的

没有找到

为你的机器学习模型创建API服务

": '"female"', "Embarked": "C"}, {"Age": 3, "Sex": "male", "Embarked": "C"}, {"Age": 21, "Sex..."female", "Embarked": "C"}, {"Age": 22, "Sex": "male", "Embarked": "S"}, {"...Age": 22, "Sex": "female", "Embarked": "C"}, {"Age": 80, "Sex": "female", "Embarked": "C...", "Embarked": "C"}, {"Age": 80, "Sex": "female", "Embarked": "C"}, {"Age":...{"Age": 80, "Sex": "female", "Embarked": "C"}, {"Age": 22, "Sex": "male", "Embarked": "S

2.9K2 0

9个value_counts()的小技巧，提高Pandas 数据分析效率

例如，让我们从 Titanic 数据集中获取“Embarked”列的计数。 ...>>> df['Embarked'].value_counts() S 644 C 168 Q 77 Name: Embarked, dtype: int64 2、按升序对结果进行排序...>>> df['Embarked'].value_counts(ascending=True) Q 77 C 168 S 644 Name: Embarked, dtype:...df['Embarked'].value_counts(dropna=False) S 644 C 168 Q 77 NaN 2 Name: Embarked...例如，让我们按“Embarked”列分组并获取不同“Sex”值的计数。

4.4K2 0

Pandas Query 方法深度总结

'] == 'S'] 如果使用 query() 方法，那么看起来更整洁： df.query('Embarked == "S"') 与 SQL 比较，则 query() 方法中的表达式类似于 SQL...= 'S' df.query('Embarked == @embarked') 或者也可以使用 f 字符串，如下所示： df.query(f'Embarked == "{embarked}"')...如果使用方括号索引，这种语法很快变得非常笨拙： df[(df['Embarked'] == 'S') | (df['Embarked'] == 'C')] 我们注意到，在这里我们需要在查询的条件下引用...（‘C’）出发的乘客，可以在 Pandas 中使用否定运算符 (~)： df[~((df['Embarked'] == 'S') | (df['Embarked'] == 'C'))] 使用 query...，当应用于列名时，我们可以使用 isnull() 方法查找缺失值： df.query('Embarked.isnull()') 现在将显示 Embarked 列中缺少值的行：其实可以直接在列名上调用各种

1.8K3 0

·泰坦尼克号生存预测（数据读取、处理与建模）

print(data.head()) print(data.describe()) 数据处理： #%% strs = "Survived Pclass Sex Age SibSp Parch Fare Embarked...x_datas.isnull().sum()) #%% x_datas["Age"] = x_datas["Age"].fillna(x_datas["Age"].mean()) x_datas["Embarked..."] = x_datas["Embarked"].fillna(x_datas["Embarked"].mode()[0]) #x_datas["Sex"] = pd.get_dummies(x_datas...["Sex"]) x_datas = pd.get_dummies(x_datas,columns=["Pclass","Sex","Embarked"]) x_datas["Age"]/=100 x_datas..."] = x_datas["Embarked"].fillna(x_datas["Embarked"].mode()[0]) #x_datas["Sex"] = pd.get_dummies(x_datas

9514 0

泰坦尼克号生存预测入门

增加特征Sex和Embarked 上面效果不好，增加一些特征增加特征Sex和Embarked，查看对预测的影响这两个特征为字符串，需要转成数字 print(pd.value_counts(data_train.loc...[:,"Embarked"])) ---------------------- S 644 C 168 Q 77 Name: Embarked, dtype: int64 # sex..."] = data_train["Embarked"].fillna('S') data_train.loc[data_train["Embarked"]=="S", "Embarked"]=0 data_train.loc...[data_train["Embarked"]=="C", "Embarked"]=1 data_train.loc[data_train["Embarked"]=="Q", "Embarked"]=2...选择随机森林调参从上面可以看出随机森林模型的预测效果最好，使用该模型，进行调参 features = ["Pclass","Age","SibSp","Parch","Fare","Embarked"

6112 0

一个实例告诉你：Kaggle 数据竞赛都有哪些套路

=LabelEncoder().fit(data['Embarked']) Embarked_label=le_embarked.transform(data['Embarked']) ohe_embarked...=OneHotEncoder(sparse=False).fit(Embarked_label.reshape(-1,1)) Embarked_ohe=ohe_embarked.transform(..._0']=Embarked_ohe[:,0] data['Embarked_1']=Embarked_ohe[:,1] data['Embarked_2']=Embarked_ohe[:,2]...(Sex_label_test.reshape(-1,1)) Embarked_label_test=le_embarked.transform(data_test['Embarked']) Embarked_ohe_test..._0']=Embarked_ohe_test[:,0] data_test['Embarked_1']=Embarked_ohe_test[:,1] data_test['Embarked_2'

1.1K6 1

机器学习（二）如何做到Kaggle排名前2%

为S的乘客幸存率较低 Embarked变量代表登船码头，现通过统计不同码头登船的乘客幸存率来判断Embarked是否可用于预测乘客幸存情况。...从上图可见，Embarked为S的乘客幸存率仅为217/(217+427)=33.7%，而Embarked为C或为NA的乘客幸存率均高于50%。初步判断Embarked可用于预测乘客是否幸存。...Embarked的WOE和IV计算如下。...12 data$Embarked[is.na(data$Embarked)] Embarked Embarked) 中位数填补一个缺失的Fare...12 data$Embarked[c(62,830)] = "S"data$Embarked Embarked) 12345 set.seed(415)model <-

1.2K3 1

使用scikit-learn进行建模预测和评估操作_泰坦尼克号获救预测

'].unique()) titanic['Embarked'] = titanic['Embarked'].fillna('S') titanic.loc[titanic['Embarked'] ==...'S', 'Embarked'] = 0 titanic.loc[titanic['Embarked'] == 'C', 'Embarked'] = 1 titanic.loc[titanic['Embarked...'] = titanic_test['Embarked'].fillna('S') titanic_test.loc[titanic_test['Embarked'] == 'S', 'Embarked...'] = 0 titanic_test.loc[titanic_test['Embarked'] == 'C', 'Embarked'] = 1 titanic_test.loc[titanic_test...['Embarked'] == 'Q', 'Embarked'] = 2 # In[151]: from sklearn import cross_validation from sklearn.ensemble

5734 0

数据科学 IPython 笔记本 8.2 Matplotlib 的应用

= np.sort(df['Embarked'].unique()) # 生成出发地的映射，从字符串到数值表示 embarked_locs_mapping = dict(zip(embarked_locs..., range(0, len(embarked_locs) + 1))) # 将出发地从字符串转换为数值表示...df = pd.concat([df, pd.get_dummies(df['Embarked'], prefix='Embarked_Val')], axis=1) # 填充出发地的缺失值...# 由于大多数乘法都从 'S': 3 出发 # 我们将出发地的缺失值赋为 'S' if len(df[df['Embarked'].isnull()] > 0):...df.replace({'Embarked_Val' : { embarked_locs_mapping[np.nan] : embarked_locs_mapping

5073 0

Python数据分析可视化--Titanic

index_col=None) test_df = pd.read_csv('test.csv') 数据探索判断是否存在缺失值 np.any(pd.isnull(df)) True np.any(df["Embarked...,row="Pclass") g2.map(plt.hist,"Age") plt.show() 可以看到,船票等级和存活率存在关系复合关系 g3 = sns.FacetGrid(df,row="Embarked..."].fillna(method="pad",inplace=True) 分类数据转化 df["Embarked"] 0 S 1 C 2 S 3 S 4...S .. 886 S 887 S 888 S 889 C 890 Q Name: Embarked, Length: 891, dtype: object ""..."] = df["Embarked"].map({"S":0,"C":1,"Q":2}).astype(int)

6172 0

Python从零开始第六章机器学习①逻辑回归

检查数据集，您会看到Sex和Embarked的值是字符串类型，这时候需要先进行label encoder才能进一步完成。...类来执行转换，如下所示： # initialize label encoder label_encoder = preprocessing.LabelEncoder() # convert Sex and Embarked...= label_encoder.fit_transform(df["Embarked"]) print(embarked_encoded) # 0 = C # 1 = Q # 2 = S df['Embarked...'] = embarked_encoded print(df.head()) 请注意，Sex和Embarked字段的值现在已替换为编码值。..."] = pd.Categorical(df["Embarked"]) df["Survived"] = pd.Categorical(df["Survived"]) print(df.dtypes)

6832 0

深度学习|泰坦尼克号生还数据处理

) 我们使用的字段有下面几个： Survived：是否生还 Pclass：船舱等级 Sex：性别 Age：年龄 SibSp：手足和配偶在船上的数量 Parch：双亲和手足在船上的数量 Fare：费用 Embarked...data.isnull().sum() 这里有两个字段有缺失值，age我们用平均值，embarked我们用最多的值进行填充。...age_mean = data['Age'].mean() data['Age'] = data['Age'].fillna(age_mean) data['Embarked'] = data['Embarked...'].fillna('S') 性别和embarked 性别需要换成0和1 embarked进行哑变量 data['Sex']= data['Sex'].map({'female':0, 'male':...1}).astype(int) data = pd.get_dummies(data=data,columns=['Embarked']) 划分数据集接着我们按0.8划分数据集。

1.4K3 1

9个value_counts()的小技巧，提高Pandas 数据分析效率

7.6K6 1

Python人工智能：Python决策树分类算法实现示例——基于泰坦尼克号生存者数据集

此时，具有字符串的特征属性包括性别属性Sex与登船港口属性Embarked，我们可以通过下面命令查看这两个属性包括的类别： print("性别具有的类别：", train_data['Sex'].unique...()) print("登船的港口类别：", train_data['Embarked'].unique()) 由此，可以看出性别属性Sex具有两类，登船的港口属性Embarked具有三类。...的处理代码： # 首先将登船港口类别转换为列表格式 labels = train_data['Embarked'].unique().tolist() # 然后获取每个登船港口类型的index值，并将其存储到...train_data中 train_data["Embarked"] = train_data["Embarked"].apply( lambda x: labels.index(x) ) 此时...由上图可以看出Sex与Embarked属性均已经处理妥当。

1.9K1 0

kaggle-1-Titanic

Embarked 根据属性的多种不同取值来绘制图形 train[train['Pclass']==1]['Embarked'] # 找出P属性中值为1的每个 Embarked 属性值 1 C...'Embarked'].value_counts() Pclass2 = train[train['Pclass']==2]['Embarked'].value_counts() Pclass3 = train...['Embarked'].fillna('S') # 用S来填充缺失值如何将属性中的字符串转成数值型？...embarked_mapping = {"S": 0, "C": 1, "Q": 2} for dataset in train_test_data: dataset['Embarked'] =...dataset['Embarked'].map(embarked_mapping) # map函数进行匹配 Fare 缺失值填充中位数 # fill missing Fare with median

1.2K1 0

机器学习入门数据集--4.泰坦尼克幸存者预测

= Yes pclass 船票等级 sex 性别 Age 年龄 sibsp 船上兄弟姐妹/配偶的个数 parch 船上父母/孩子的个数 ticket 船票号 fare 船票价格 cabin 船舱号码 embarked...统计embarked港口分析 Survived_0 = data_train.Embarked[data_train.Survived == 0].value_counts() Survived_1 =...data_train.Embarked[data_train.Survived == 1].value_counts() df=pd.DataFrame({u'获救':Survived_1, u'未获救...891 non-null object Fare 891 non-null float64 Cabin 204 non-null object Embarked...891 non-null uint8 Embarked_Q 891 non-null uint8 Embarked_S 891 non-null uint8 建模： import numpy

7243 0

机器学习之逻辑回归

登船地点 # 登船地点的缺失率 print('"Embarked" 缺失的百分比 %.2f%%' %((df['embarked'].isnull().sum()/df.shape[0])*100))..., S = Southampton):') print(df['embarked'].value_counts()) sns.countplot(x='embarked', data=df, palette...%df['embarked'].value_counts().idxmax()) 乘客登船地点的众数为 S....如果一条数据的 "Embarked" 缺失, 使用登船地点的众数 “S” 替代....登船地点 sns.barplot('embarked', 'survived', data=df, color="teal") plt.show() ---- ?

1.2K4 1

【精华总结】全文4000字、20个案例详解Pandas当中的数据统计分析与排序

'].value_counts() output S 644 C 168 Q 77 Name: Embarked, dtype: int64 下面我们简单来介绍一下value_counts...同时我们也可以对索引，按照字母表的顺序来进行排序，代码如下 df['Embarked'].value_counts(ascending=True).sort_index(ascending=True)...Q 0.086614 Name: Embarked, dtype: float64 要是我们希望对能够在后面加上一个百分比的符号，则需要在Pandas中加以设置，对数据的展示加以设置，代码如下...pd.set_option('display.float_format', '{:.2%}'.format) df['Embarked'].value_counts(normalize = True)...output S 72.44% C 18.90% Q 8.66% Name: Embarked, dtype: float64 当然除此之外，我们还可以这么来做，代码如下 df['Embarked

7311 0

点击加载更多

9个value_counts()的小技巧，提高Pandas 数据分析效率

Python人工智能：基于sklearn的数据预处理方法总结

为你的机器学习模型创建API服务

9个value_counts()的小技巧，提高Pandas 数据分析效率

Pandas Query 方法深度总结

·泰坦尼克号生存预测（数据读取、处理与建模）

泰坦尼克号生存预测入门

一个实例告诉你：Kaggle 数据竞赛都有哪些套路

机器学习（二）如何做到Kaggle排名前2%

使用scikit-learn进行建模预测和评估操作_泰坦尼克号获救预测

数据科学 IPython 笔记本 8.2 Matplotlib 的应用

Python数据分析可视化--Titanic

Python从零开始第六章机器学习①逻辑回归

深度学习|泰坦尼克号生还数据处理

9个value_counts()的小技巧，提高Pandas 数据分析效率

Python人工智能：Python决策树分类算法实现示例——基于泰坦尼克号生存者数据集

kaggle-1-Titanic

机器学习入门数据集--4.泰坦尼克幸存者预测

机器学习之逻辑回归

【精华总结】全文4000字、20个案例详解Pandas当中的数据统计分析与排序

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐