我正在尝试将conll格式的数据转换为spacy的json格式来训练模型。
我正在使用spacy的convert来做同样的事情。我已经尝试过这个命令
python -m spacy convert conll_dataset.tsv /Users/user/docs -t json -c ner
我得到一个值错误。
ValueError: [E177] Ill-formed IOB input detected: in
我删除了数据集中所有出现的“in”,然后再试一次,然后我得到了一个相同的错误,只是稍有变化。
ValueError: [E177] Ill-formed IOB input detected: an
帮我解决这个问题。我的数据集如下所示
Abhishek Name
Jha Name
Application Designation
Development Designation
Associate Designation
我使用的是spacy 2.3.2
发布于 2021-10-12 00:28:14
IOB格式表示标签为空、"O“或类似于"B-PERSON”。这是CoNLLu文件中用于IOB标签的格式。您的标签" in“和"an”不是该格式,因此它们无效。
我不确定你的数据是什么格式,但它看起来不像普通的CoNLL数据,特别是如果它实际上是以制表符开头的,这并不是偶然的。您应该能够将第二列转换为IOB标记,但存在合并相邻实体的风险,方法是在每个标记或其他前面加上"I-“。查看example data以了解spaCy所期望的内容。
https://stackoverflow.com/questions/64726307
复制