首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >如何从Sphinx索引中检索出现频率最高的关键字?

如何从Sphinx索引中检索出现频率最高的关键字?
EN

Stack Overflow用户
提问于 2011-08-08 18:14:37
回答 1查看 279关注 0票数 0

我有一个文本文件的Sphinx索引,我想检索在索引文本文件时找到的Sphinx关键字的列表,按它们在数据集中出现的频率从高到低排序。我该怎么做呢?

如果可能的话,我想同时检索实词和词干。

我使用PHP调用索引。

以下是我对此索引的Sphinx.conf设置:

代码语言:javascript
代码运行次数:0
运行
复制
source srcDatasheets
{
    type                = mysql
    sql_host            = localhost
    sql_user            = user
    sql_pass            = pass
    sql_db              = db
    sql_port            = 3306

    sql_query           = \
         SELECT id, company_id, title, brief, content_file_path \
         FROM datasheets

    sql_attr_uint       = company_id
    sql_file_field      = content_file_path
    sql_query_info      = SELECT * FROM datasheets WHERE id=$id
}


index datasheets
{
    source              = srcDatasheets
    path                = /usr/local/sphinx/var/data/datasheetsStemmed
    docinfo             = extern
    charset_type        = sbcs
    morphology          = stem_en
    min_stemming_len    = 1
}
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-08-09 19:36:15

我们不能使用Sphinx直接从实时索引中检索关键字密度。数据的存储方式不允许这样做。这是a response from the Sphinx forums

但是,您可以使用--buildstop和--buildfreqs (see the docs)运行索引器。索引器将根据您在.conf文件中对该索引的设置,输出最频繁出现的术语和频率的txt文件。

这将处理数据集以创建列表和文本文件,而不是实际创建新的可搜索索引。

我在文本文件(转换后的pdf)的索引上运行了一个测试,最小单词长度和最小词干长度为5个字符。在大约20秒内处理了70,000个文件(5分钟,最小字符限制设置为1)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6980648

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档