3分钟

数据文件格式

  1. 如果要使用CRF++,则训练文件、测试文件必须满足特定的格式:
  • 文件由很多token组成,每个token 占据一行,包含固定数量的字段。
  • 所有token 的字段数量相等,字段的数量没有限制,字段之间用空白分隔(空格符或者tab 符)。
  • 每个字段通常表示某种含义。如:第一列表示单词、第二列表示词性、第三列表示属性...。
  • 一个sentence 由多个token 表述,sentence 之间通过空行来区分边界。
  • 训练文件中,最后一个字段必须是标记,它将作为CRF++ 训练的目标。