我需要在我的熊猫数据框架上对分类变量进行一个热编码。
我的数据集非常大,超过2000年的产品is 是一个热编码。
我试过pd.get_dummies,它总是崩溃。
我也尝试了科学工具包-学习的OneHotEncoder,也崩溃了!(它可以很好地处理较小的dataframe子集)
还有什么其他方法吗?对于非常大的数据集来说,对一个热门的分类变量进行编码的最有效的方法是什么?
我的数据框架:
Month User ProductID
1 A ProdA
3 A ProdB
11 A ProdC
12 A
我正在从SQL Server过渡到BigQuery,并注意到BigQuery中的TOP函数只允许在查询中聚合。因此,下面的代码将不起作用:
SELECT TOP 5 * FROM TABLE
这是我在尝试学习新表和获取有关数据的更多信息时的一个习惯。除了从表中选择几行之外,还有其他选择吗?下面的select all查询可以工作,但是效率非常低,并且对于大表运行需要很长时间:
SELECT * FROM TABLE