首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从“打字描述”到“标签”

从“打字描述”到“标签”
EN

Stack Overflow用户
提问于 2014-08-12 12:27:38
回答 1查看 111关注 0票数 0

背景

我确实有一个图像数据集(类似于http://www.image-net.org/),该数据集为每个图像提供了一个“带有打字的描述”。我想对这个家伙运行一些深卷积神经网络,但我需要首先生成“标签”。所以,问题是:

问题

如何从“带有排字的描述”生成类别的“标签”?

技术信息

数据集有大约13M幅图像,并有相应的(有效的)“描述”和可选的“输入”。“描述”的一些例子如下:

想法

我正在考虑用以下的方法来处理这个问题。

  1. 修正排版:
    • 运行拼写检查以识别拼写错误;
    • 通过找到可以修复它的更好的词
      • 查看数据集中的其他描述,或
      • 检查图像并手动纠正错误;

  1. 生成最终标签:
    • 在句子嵌入(将句子映射到ℝᴺ中的函数)上运行聚类算法(例如k均值)
    • 使用最经常出现的词。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-08-12 18:46:05

这里有一些想法:

  1. 你应该清楚地进行拼写检查,否则你的标签会更吵。选项:

代码语言:javascript
运行
AI代码解释
复制
- Check a Information retrieval course and implement the checking, google lecture3-tolerant-retrieval-handout-6-per.pdf (I bet this is not the way to go) In case you want frequencies, google "Natural Language Corpus Data"
- Use some code [http://norvig.com/spell-correct.html](http://norvig.com/spell-correct.html) (in many languages)

  1. 关于标签(我猜你是想要自动的,否则会有半自动的方法):

代码语言:javascript
运行
AI代码解释
复制
- Use [http://viget.com/extend/tagging-text-automatically](http://viget.com/extend/tagging-text-automatically) I have never used them but it should work reasonable well
- I would not recommend using k means because you do know the number of groups
- Use the most recurrent word might work for few examples (like the ones you show there) but it might not work for many cases.

我希望这是有用的

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25273507

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档