BigQuery ML是否自动拆分数据集以进行培训和评估?或者我们必须手动获得80%的训练数据集、10%的验证数据集和10%的logistic回归BigQuery ML评估数据集?如果两者都是肯定的,那其中哪一个更好?
谢谢
发布于 2019-11-18 03:29:20
是的,BigQuery ML将为其验证过程自动拆分数据。对于您来说,手动拆分一个延迟集来对模型从未见过的数据执行一些额外的验证也是相当常见的做法。
您可以使用DATA_SPLIT_METHOD
参数告诉BigQuery ML如何分割数据。默认的拆分是AUTO_SPLIT
,定义如下:
当输入数据中少于500行时,所有行都用作培训数据。当输入数据中有500到50,000行时,20%的数据被用作随机分割的评估数据。当输入数据中有超过50,000行时,其中只有10,000行被用作随机拆分中的评估数据。
有关更多信息,我建议阅读正式文件。
https://stackoverflow.com/questions/58913361
复制