写在前面:http://www.xunsearch.com/scws/index.php 私人定制:scws 上面那个压缩包是在thinkphp中使用的!
取得 scws-1.2.3 的代码 wget http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2 2....进入目录执行配置脚本和编译 [hightman@d1 ~]$ cd scws-1.2.3[hightman@d1 ~/scws-1.2.3]$ ....常用选项为:--prefix= 4....顺利的话已经编译并安装成功到 /usr/local/scws 中了,执行下面命令看看文件是否存在 [hightman@d1 ~/scws-1.2.3]$ ls -al /usr/local/scws/...试试执行 scws-cli 文件 [hightman@d1 ~/scws-1.2.3]$ /usr/local/scws/bin/scws -h scws (scws-cli/1.2.3) Simple
取得 scws-1.2.3 的代码 $ wget http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2 2....试试执行 scws-cli 文件 $ /usr/local/scws/bin/scws -h # scws (scws-cli/1.2.3) # Simple Chinese Word Segmentation.../etc 目录中 $ cd /usr/local/scws/etc $ wget http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2...$ tar xvjf scws-dict-chs-utf8.tar.bz2 进入源码目录的 phpext/ 目录 ( cd ~/scws-1.2.3 ) $ cd ~/scws-1.2.3 $ cd.../scws.so # 使用绝对路径 scws.default.charset = utf8 scws.default.fpath = /usr/local/scws/etc # 使用php -m 没有看到
本文实例讲述了PHP+MySQL+sphinx+scws实现全文检索功能。...下载地址 http://www.xunsearch.com/scws/download.php SCWS 词库下载地址 http://www.xunsearch.com/scws/down/scws-dict-chs-utf8...scws-1.2.3.tar.bz2 [root@MevHost sphinxb]# mkdir /usr/local/scws [root@MevHost sphinxb]# cd scws-1.2.3...scws.default.charset=utf-8 scws.default.fpath = /usr/local/scws/etc 安装scws词库 [root@MevHost sphinxb]#.../dd.txt',SCWS_XDICT_TXT); //默认规则 $so- set_rule(ini_get('scws.default.fpath') .
scws词库下载地址:http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2 安装 sphinx tar zxvf sphinx-2.2.11...tar xvjf scws-1.2.3.tar.bz2 # mkdir /usr/local/scws # cd scws-1.2.3 # ..../configure --prefix=/usr/local/scws/ # make && make install 安装 scws php 扩展 # cd ....xvjf scws-dict-chs-utf8.tar.bz2 -C /usr/local/scws/etc/ # chown www:www /usr/local/scws/etc/dict.utf8...= scws.so scws.default.charset = utf-8 scws.default.fpath = /usr/local/scws/etc 重启 php-fpm 即可完成安装
命令行工具 使用命令行工具也可以直接调用 SCWS ,在安装目录的 bin 目录下,有 scws 这个工具。.../scws -h scws (scws-cli/1.2.3) Simple Chinese Word Segmentation - Command line usage....注意哦,它是通过直接向 XS 服务端发送请求,然后由服务端直接通过 SCWS 工具(也就是命令行那个 scws 组件)来实现分词效果。...// $tokenizer = new XSTokenizerScws(SCWS_MULTI_SHORT+SCWS_MULTI_ZMAIN); $tokenizer->setMulti(SCWS_MULTI_NONE...define('SCWS_MULTI_NONE', 0); define('SCWS_MULTI_SHORT', 1); define('SCWS_MULTI_DUALITY', 2); define(
分词功能 PgSQL 内置了英文、西班牙文等,但中文分词需要借助开源插件 zhparser; SCWS 要使用 zhparser,我们首先要安装 SCWS 分词库,SCWS 是 Simple Chinese...Word Segmentation 的首字母缩写(即:简易中文分词系统),其 GitHub 项目地址为 hightman-scws,我们下载之后可以直接安装。...安装完后,就可以在命令行中使用 scws 命令进行测试分词了, 其参数主要有: -c utf8 指定字符集 -d dict 指定字典 可以是 xdb 或 txt 格式 -M 复合分词的级别, 1~15,...使用 scws 带的scwe-gen-dict 工具或网上找的脚本生成 xdb 后放入词库文件夹后,在 PgSQL 中分词一直报错,读取词库文件失败。...词性,词是必须的,而 TF 词频(Term Frequency)、IDF 反文档频率(Inverse Document Frequency) 和 词性 都是可选的,除非确定自己的词典资料是对的且符合 scws
SCWS分词(二)自定义字典及分词器 经过上篇文章的学习,相信大家对分词的概念已经有了更深入的了解了吧。我们也知道了,SCWS 是 XS 中的一个重要组成部分,但它也是可以单独拿出来使用的。...今天,我们主要来学习的就是 SCWS 字典相关的一些配置。此外,还有自定义分词器的实现。 自定义字典 上回已经说过,SCWS 有提供一个非常小的,但词汇量非常大的字典。...SCWS 在命令行还提供了一个 scws-gen-dict 工具。和上篇文章中我们命令行操作 scws 的工具是放在一起的。...这里我就不演示了,SCWS 还是比较智能的,普通的 txt 文件其实大部分情况下还是能满足需求的。 接下来咱们测试一下。 php ....在索引配置文件中,我们之前说过有默认的 scws、full、split、none、xlen、xstep 这几种分词类型。
比较有意思的是,对比其他数据源,有3家系统都在汽车论坛领域达到最高:腾讯文智、SCWS中文分词、结巴分词。...将 可能 有 一 位 沙特阿拉伯 的 女子 (BosonNLP、新浪云、语言云、NLPIR、腾讯文智) 错误: 在 伦敦 奥运会 上将 可能 有 一 位 沙特阿拉伯 的 女子 (PHP结巴分词、SCWS...大多数的系统对于示例文本的分词结果都不够理想,例如:“大肚 腩”(SCWS中文分词) “腹 直 肌 腹 外 斜 肌”(搜狗分词、IKAnalyer、NLPIR、SCWS中文分词)、“人 鱼线”(PHP结巴分词...其中搜狗分词、IKAnalyer、PHP结巴分词、腾讯文智、SCWS中文分词在新词识别时较为谨慎,常将这类专有名词切分成多个词语。...在分词颗粒度选择当中,BosonNLP、SCWS、盘古分词、结巴分词、庖丁解牛都提供了多种选择,可以根据需求来采用不同的分词粒度。
分词功能 PgSQL 内置了英文、西班牙文等,但中文分词需要借助开源插件 zhparser; SCWS 要使用 zhparser,我们首先要安装 SCWS 分词库,SCWS 是 Simple Chinese...Word Segmentation 的首字母缩写(即:简易中文分词系统),其 GitHub 项目地址为 hightman-scws,我们下载之后可以直接安装。...安装完后,就可以在命令行中使用 scws 命令进行测试分词了, 其参数主要有: -c utf8 指定字符集 -d dict 指定字典 可以是 xdb 或 txt 格式 -M 复合分词的级别, 1~15,...使用 scws 带的scwe-gen-dict 工具或网上找的脚本生成 xdb 后放入词库文件夹后,在 PgSQL 中分词一直报错,读取词库文件失败。...参考: PostgreSQL系统配置优化 [PG]使用 zhparser 进行中文分词全文检索 SCWS 中文分词 Fast Search Using PostgreSQL Trigram Indexes
除了 Xapian 之外,XS 还一道封装好了 hightman 大佬开发的中文 SCWS 分词器。相当于一个 XS 就是 Xapina+SCWS+PHP SDK 的组合。...倒排索引、分词的概念与原理 排序、相关度评分的算法概念 XS 的使用(PHP SDK工具、PHP SDK全部功能使用等) SCWS、Xapian 的学习 现在知道为什么上篇文章中我会说咱们这一套文章和视频可能会是全网唯一了...,因为咱们不只讲 XS 的使用,还要简单地学习一下 SCWS 和 Xapian ,并且通过这些再顺道一起学习搜索引擎相关的一些基础知识。...数据量越大,分布分片节点越多,与其它相比性能就越好 高 非常高,单索引亿级也能快速搜索 增量索引 支持 支持 支持 增量支持度一般,但全量MySQL生成索引非常快,与MySQL等配合紧密 中文支持 自带SCWS...“项”按正常的分词器,不管是 IK 还是 SCWS ,都不会当成一个单词,也就不会为它建立倒排索引,这样就无法查询到。
- 使用B树索引优化查询效果 分词问题 一开始是分词效果的问题: 中文博大精深,乒乓球拍卖啦、南京市长江大桥 这种歧义句的分词,还没有一个分词插件能够达到 100% 的准确率,当然包括我们正在使用的 scws...分词库; 我们的搜索内容是 Poi 地点名,而很多地点名都缺失语义性,产生歧义词的概率更大; scws 支持更为灵活的分词等级,为了能分出较多的词来尽量包含目标结果,我们将 scws 的分词等级调为了...当时有三种方案: 修改开源分词库 scws,添加一个分前缀词的功能。不过我担心改出 Bug,而且还要改 PostgreSQL 的分词插件 zhparser 以适应 scws 的参数变动。
11.SCWS 下载地址: http://www.xunsearch.com/scws/ 【这个在很多开源和商业项目中都有使用】SCWS 是 Simple Chinese Word Segmentation...SCWS 采用纯 C 语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序, 支持的中文编码包括 GBK、UTF-8 等。
虽说这两个现在很流行,很出名,但咱们的 XS 所使用的 SCWS ,则是还没有它们的时候就已经存在的,通过 C/C++ 开发的一款优秀分词器。...我所在的公司使用 Solr 作为搜索引擎,而当时配合 Solr 的分词器就是 SCWS 。 还有更早的,我刚毕业时做过一年 C# ,也就是 ASP.NET 开发,大概是 2009 年。...所幸,上面的那些分词器,Jieba、IK,以及我们主要要学习的 SCWS ,在形式、功能上都非常相似。就和搜索引擎一样,不管是 ES 还是 XS ,最终都是要实现全文检索的,也要做倒排索引的。...因此,学完 XS 的分词以及 SCWS 的分词相关内容后,再看 Jieba 或者 IK 都能很快上手的。...不管是 XS 的 SCWS 还是 ES 的 IK ,都不会将“项”作为一个单词拆分出来加入到倒排表中。如果要实现可以索引这个单字的话,那么就需要做成单字倒排索引。
github.com/fxsjy/jieba 盘古分词: http://pangusegment.codeplex.com/ 庖丁解牛: https://code.google.com/p/paoding/ SCWS...中文分词: http://www.xunsearch.com/scws/docs.php 高校工具 FudanNLP: https://github.com/FudanNLP/fnlp LTP: http
hanlp.properties文件 root= #将根目录置为空,或者注释掉root CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; scws.txt...全国地名大全.txt ns; 人名词典.txt; 机构名词典.txt; 上海地名.txt ns;data/dictionary/person/nrf.txt nrf; #增加更多的配置文件,这里增加了结巴分词,scws
一元分词法 查询时用“”取消分词,对汉字进行词语分组 最多分词法,一元分词法(最灵活) 中文分词法 httpcus 张宴 分词中学习,检查某几个字合在一起得到的结果多少 同义词表 自动纠错 自动完成功能 SCWS
中文分词搜索 * @param string $keywords 关键词 * @param string $file ini文件名 * @param bool $is_scws...* @throws \XSException */ public static function search($keywords,$file = 'demo',$is_scws...= false,$limit = 100){ $xs = new \XS($file); if($is_scws === true) { //中文分词
文档拾遗 Xapian 的介绍就不多说了,本来我想单独搭建 Xapian 和 SCWS 的,也就是想手动搭起一套 Xapian + SCWS 的运行环境。但是,没成功!...所有的 Xapian 工具都和 XS 以及 SCWS 工具在一起。也就是在你的安装目录下的 bin 目录中。比如在我的虚拟机中就是 /usr/local/xunsearch/bin 这个目录。...剩下的如果各位大佬有兴趣,还可以继续探索哦,反正整个 Xapian 和 XS 以及 SCWS 全是开源的。
Applications/ServBay/package/etc/php/5.6/conf.d/redis.ini, /Applications/ServBay/package/etc/php/5.6/conf.d/scws.ini
领取专属 10元无门槛券
手把手带您无忧上云