我有一个巨大的单词列表(大约50K)存储在一个数据库(我正在使用activerecord),我想使用和检索匹配的单词对一个文本块。
我知道ruby提供了交集。
t = "this is a sample text, was created for demo"
w = ["is","a","was","to","and"]
t.split & w #=> ["is", "a", "was"]
但是我怎么才能做到50K字呢?而这样的比赛的
我正在努力寻找最好的方式来创建我的网站的搜索引擎。所有需要搜索的项目都在mysqli数据库中,但我在数据库中也有需要从搜索中排除的表(即,用户信息、导航菜单表等)。到目前为止,我想出的唯一解决方案是分别在每个表中搜索该关键字,然后显示结果。有没有更简单的方法来做这件事?我希望有一个‘表组’或类似的东西,这样我的查询就可以是这样的:
SELECT * FROM table_group WHERE any_column LIKE “%search_string%”
数据库现在大约有30个表,但表可以动态添加,并且随着网站的使用越来越多,这个数量还会增加。做这件事最好的方法是什么?
我正在开发一个国际化的数据库应用程序,它支持单个实例中的多个地区。当国际用户对构建在数据库之上的应用程序中的数据进行排序时,从理论上讲,数据库使用与用户正在查看的数据相关联的区域设置的排序规则对数据进行排序。
我试图找到符合两个标准的有序单词列表:
排序顺序遵循区域设置的排序规则。
列出的单词将允许我为区域设置执行大部分/所有特定的校对规则。
我很难找到这些可信的测试数据。这类测试数据集目前是否可用,如果有,它们在哪里?
"words.en.txt“是一个包含美式英语文本的示例文本文件:
Andrew
Brian
Chris
Zachary
我计划按随机顺序将单词列表加
假设我想植入一个搜索引擎,让用户进入LIKE是危险的。例如:
SELECT user FROM table WHERE user LIKE "[user input]"
在这种情况下,我假设用户可以输入诸如%、_等字符。我们还假定正确地转义注入字符,如"、'、
如果数据库包含大量用户,我正在考虑可能的Mysql。还有其他(S)风险吗?
我想得到一些想法,我可以创建一个高效的MySQL数据库,可以处理高流量的自动完成请求,如谷歌的新的自动更新功能。
关键是,我正在尝试获取我的书的内容,我想以一种使数据库以最快/最小的开销请求相关文本的方式对文本进行索引。
例如,:
如果我要键入文本:"as",我基本上会浏览数据库(整本书),并在书中看到如下句子的结果集:
"...that is as I was saying..."
"as I intended..."
"This is as good as it gets"
...
但是,当我输入"k&
我对30-40个mill记录数据库使用全文搜索。80%的数据集中在一个表中。我将名字和姓氏作为全文进行搜索,因为全名可以以多种方式存储“比尔盖茨”、“盖茨”、“比尔盖茨和梅林达盖茨”等。我们还有一个昵称数据库,所以它会搜索“bill”,“will”,“william”等。查找昵称根本不需要时间,但是一旦我实现了包含昵称的查询,现在花费的时间要长得多。
SELECT * FROM db1
WHERE MATCH (Name) AGAINST (' +bill +gates 'IN BOOLEAN MODE) UNION ALL
... (then the other 8 db