课程评价 (0)

请对课程作出评价:
0/300

学员评价

暂无精选评价
30分钟

IO 参数

  1. max_bin: 一个整数,表示最大的桶的数量。默认值为 255。
    1. lightgbm 会根据它来自动压缩内存。如max_bin=255 时,则lightgbm 将使用uint8 来表示特征的每一个值。
  2. min_data_in_bin: 一个整数,表示每个桶的最小样本数。默认为3。 该方法可以避免出现一个桶只有一个样本的情况。
  3. data_random_seed: 一个整数,表示并行学习数据分隔中的随机数种子。默认为1 它不包括特征并行。
  4. output_model或者model_output或者model_out: 一个字符串,表示训练中输出的模型被保存的文件的文件名。默认LightGBM_model.txt
  5. input_model或者model_input或者model_in: 一个字符串,表示输入模型的文件的文件名。默认空字符串。
    1. 对于prediction任务,该模型将用于预测数据
    2. 对于train任务,训练将从该模型继续
  6. output_result或者 predict_result或者prediction_result:一个字符串,给出了prediction 结果存放的文件名。默认为LightGBM_predict_result.txt
  7. pre_partition 或者 is_pre_partition: 一个布尔值,指示数据是否已经被划分。默认值为False。 如果为true,则不同的机器使用不同的partition 来训练。 它用于并行学习(不包括特征并行)
  8. is_sparse或者 is_enable_sparse或者enable_sparse: 一个布尔值,表示是否开启稀疏优化,默认为True。 如果为True则启用稀疏优化。
  9. two_round 或者two_round_loading或者 use_two_round_loading: 一个布尔值,指示是否启动两次加载。默认值为False,表示只需要进行一次加载。
    1. 默认情况下,lightgbm 会将数据文件映射到内存,然后从内存加载特征,这将提供更快的数据加载速度。但是当数据文件很大时,内存可能会被耗尽。
    2. 如果数据文件太大,则将它设置为True
  10. save_binary或者is_save_binary或者 is_save_binary_file: 一个布尔值,表示是否将数据集(包括验证集)保存到二进制文件中。默认值为False。 如果为True,则可以加快数据的加载速度。
  11. verbosity 或者verbose: 一个整数,表示是否输出中间信息。默认值为1。
    1. 如果小于0,则仅仅输出critical 信息;如果等于0,则还会输出error,warning 信息; 如果大于0,则还会输出info 信息。
  12. header或者has_header : 一个布尔值,表示输入数据是否有头部。默认为False
  13. label 或者label_column: 一个字符串,表示标签列。默认为空字符串。
    1. 你也可以指定一个整数,如label=0 表示第0列是标签列。
    2. 你也可以为列名添加前缀,如label=prefix:label_name
  14. weight 或者weight_column: 一个字符串,表示样本权重列。默认为空字符串。
    1. 你也可以指定一个整数,如weight=0 表示第0列是权重列。注意:它是剔除了标签列之后的索引。 假如标签列为0,权重列为1,则这里weight=0
    2. 你也可以为列名添加前缀,如weight=prefix:weight_name
  15. query 或者query_column或者gourp 或者group_column: 一个字符串,query/group ID 列。默认为空字符串。
    1. 你也可以指定一个整数,如query=0 表示第0列是query列。注意:它是剔除了标签列之后的索引。 假如标签列为0query列为1,则这里query=0
    2. 你也可以为列名添加前缀,如query=prefix:query_name
  16. ignore_column 或者 ignore_feature或者blacklist: 一个字符串,表示训练中忽略的一些列,默认为空字符串。
    1. 可以用数字做索引,如ignore_column=0,1,2 表示第0,1,2 列将被忽略。注意:它是剔除了标签列之后的索引。
    2. 你也可以为列名添加前缀,如ignore_column=prefix:ign_name1,ign_name2
  17. categorical_feature 或者categorical_column或者cat_feature或者 cat_column: 一个字符串,指定category 特征的列。默认为空字符串。
    1. 可以用数字做索引,如categorical_feature=0,1,2 表示第0,1,2 列将作为category 特征。注意:它是剔除了标签列之后的索引。
    2. 你也可以为列名添加前缀,如categorical_feature=prefix:cat_name1,cat_name2categorycal 特征中,负的取值被视作缺失值。
  18. predict_raw_score 或者raw_score或者 is_predict_raw_score: 一个布尔值,表示是否预测原始得分。默认为False。 如果为True则仅预测原始得分。 该参数只用于prediction 任务。
  19. predict_leaf_index 或者 leaf_index或者 is_predict_leaf_index: 一个布尔值,表示是否预测每个样本在每棵树上的叶节点编号。默认为False。 在预测时,每个样本都会被分配到每棵树的某个叶子节点上。该参数就是要输出这些叶子节点的编号。 该参数只用于prediction 任务。
  20. predict_contrib 或者 contrib或者 is_predict_contrib: 一个布尔值,表示是否输出每个特征对于每个样本的预测的贡献。默认为False。 输出的结果形状为[nsamples,nfeatures+1], 之所以+1 是考虑到bais 的贡献。所有的贡献加起来就是该样本的预测结果。 该参数只用于prediction 任务。
  21. bin_construct_sample_cnt 或者 subsample_for_bin: 一个整数,表示用来构建直方图的样本的数量。默认为200000
    1. 如果数据非常稀疏,则可以设置为一个更大的值
    2. 如果设置更大的值,则会提供更好的训练效果,但是会增加数据加载时间
  22. num_iteration_predict: 一个整数,表示在预测中使用多少棵子树。默认为-1。 小于等于0表示使用模型的所有子树。 该参数只用于prediction 任务。
  23. pred_early_stop:一个布尔值,表示是否使用早停来加速预测。默认为False。 如果为True,则可能影响精度。
  24. pred_early_stop_freq: 一个整数,表示检查早停的频率。默认为10
  25. pred_early_stop_margin: 一个浮点数,表示早停的边际阈值。默认为 10.0
  26. use_missing: 一个布尔值,表示是否使用缺失值功能。默认为True 如果为False 则禁用缺失值功能。
  27. zero_as_missing: 一个布尔值,表示是否将所有的零(包括在libsvm/sparse矩阵 中未显示的值)都视为缺失值。 默认为False
    1. 如果为False,则将np.nan 视作缺失值。
    2. 如果为True,则np.nan 和 零都将视作缺失值。
  28. init_score_file: 一个字符串,表示训练时的初始化分数文件的路径。默认为空字符串,表示train_data_file+".init" (如果存在)
  29. valid_init_score_file: 一个字符串,表示验证时的初始化分数文件的路径。默认为空字符串,表示valid_data_file+".init" (如果存在) 如果有多个(对应于多个验证集),则可以用逗号, 来分隔。