首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >如何解决ValueError:[E177]检测到格式错误的IOB输入: an?

如何解决ValueError:[E177]检测到格式错误的IOB输入: an?
EN

Stack Overflow用户
提问于 2020-11-07 17:38:37
回答 1查看 194关注 0票数 2

我正在尝试将conll格式的数据转换为spacy的json格式来训练模型。

我正在使用spacy的convert来做同样的事情。我已经尝试过这个命令

代码语言:javascript
代码运行次数:0
运行
复制
      python -m spacy convert conll_dataset.tsv /Users/user/docs -t json -c ner

我得到一个值错误。

代码语言:javascript
代码运行次数:0
运行
复制
     ValueError: [E177] Ill-formed IOB input detected: in

我删除了数据集中所有出现的“in”,然后再试一次,然后我得到了一个相同的错误,只是稍有变化。

代码语言:javascript
代码运行次数:0
运行
复制
     ValueError: [E177] Ill-formed IOB input detected: an

帮我解决这个问题。我的数据集如下所示

代码语言:javascript
代码运行次数:0
运行
复制
     Abhishek   Name
     Jha    Name
     Application    Designation
     Development    Designation
     Associate  Designation

我使用的是spacy 2.3.2

EN

回答 1

Stack Overflow用户

发布于 2021-10-12 08:28:14

IOB格式表示标签为空、"O“或类似于"B-PERSON”。这是CoNLLu文件中用于IOB标签的格式。您的标签" in“和"an”不是该格式,因此它们无效。

我不确定你的数据是什么格式,但它看起来不像普通的CoNLL数据,特别是如果它实际上是以制表符开头的,这并不是偶然的。您应该能够将第二列转换为IOB标记,但存在合并相邻实体的风险,方法是在每个标记或其他前面加上"I-“。查看example data以了解spaCy所期望的内容。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64726307

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档