前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >搜索引擎配置优化笔记 - 老板的讲课

搜索引擎配置优化笔记 - 老板的讲课

作者头像
零式的天空
发布于 2022-03-16 02:04:13
发布于 2022-03-16 02:04:13
5050
举报
文章被收录于专栏:零域Blog零域Blog

搜索引擎优化 并不是 只seo 而是只自建搜索引擎的配置优化

使用了两个开源的软件:sphinxredis

开源搜索引擎

1.Lucence/Nutch/Solr Java编写

2.Sphinx/Coreseek C++

3.Xapian 豆瓣

4.BosS

Sphinx 介绍

1.配置索引文件

2.索引 (正向索引 -> like %key% ; 反向索引 -> 先建关键词列表)

3.处理搜索

4.2-3不断重复

Sphinx 特点

索引快,支持中文,丰富的查询表达式,可以分段落,支持模糊查询,多种结果后处理机制

排序,BM25,搜索算法

支持实时索引,地理位置搜索

Redis 介绍

Nosql 数据库, 数据常驻内存, 实时异步存储到数据库

Redis 特点

数据不会丢失,查询速度快

流程

论坛 -> 索引服务器 -> 处理文档 去特殊字符-> 存储到Redis ,获得ID -> 索引服务器Sphinx

中文分词

Sphinx 汉字自动单词分词 一元分词法

查询时用“”取消分词,对汉字进行词语分组

最多分词法,一元分词法(最灵活)

中文分词法 httpcus 张宴

分词中学习,检查某几个字合在一起得到的结果多少

同义词表

自动纠错

自动完成功能

SCWS 分词 php中文分词

搜索的时候找稀少词,分词后,搜索结果越少的词越是用户需要的

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2011-04-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【迅搜02】究竟什么是搜索引擎?正式介绍XunSearch
啥?还要单独讲一下啥是搜索引擎?不就是百度、Google嘛,这玩意天天用,还轮的到你来说?
硬核项目经理
2023/11/21
7000
【迅搜02】究竟什么是搜索引擎?正式介绍XunSearch
搜索引擎技术之概要预览
近些天在学校静心复习功课与梳理思路(找工作的事情暂缓),趁闲暇之际,常看有关搜索引擎相关技术类的文章,接触到不少此前未曾触碰到的诸多概念与技术,如爬虫,网页抓取,分词,索引,查询,排序等等,更惊叹于每一幅精彩的架构图,特此,便有记录下来的冲动,以作备忘。
全栈程序员站长
2022/07/09
6930
搜索引擎技术之概要预览
070. 搜索引擎理论简述
1. 索引 ---- 1. 索引的原理是什么? 对列值创建排序存储,数据结构={列值、行地址}。在有序数据列表中就可以利用二分查找(或者其他方式)快速找到要查找的行的地址,再根据地址直接取行数据。 2. 为什么称为倒排索引? 英文原名为 Inverted index,失败地被翻译成了倒排索引。 应该翻译为:反向索引。 3. 反向索引的记录数会不会很大? 英文单词的大致数量是10万个。 汉字的总数已经超过了8万,而常用的只有3500字。 《现代汉语规范词典》比《现代汉语词典》收录的字和词数量更多。前者是130
山海散人
2021/03/03
4910
在python中使用elasticsearch做为搜索引擎
一直想找一个快速全文搜索的工具,目前找到的有Sphinx,xapian,Lucene,solr, elasticsearch ,whoosh,hyper estraier等,原本一直不太喜欢用java系的,内存大户伤不起啊。尝试了sphinx,xapian,hyper estraier,其中xapian资料太少,hyper estraier虽然比较简单,但资料也少。sphinx到是有一个中文化的分支coreseek,然后看到文档里面提到sphinx支持一元切分,但根 据查询的例子去查的结果不是我想要的,不知道是不是我的查询语句用错了。而且因为我是在windows上测试的,而我的python又是2.7的版本,无 法在 coreseek 上直接使用,应该需要重新编译。后来看到 elasticsearch ,真是亮瞎老夫的狗眼啊,这货直接可以用restful json操作又有pyes,pyelasticsearch这些已经封装好的操作库。 elasticsearch 还是支持分布式,扩展也方便了。由于是java开发的,跨平台也无问题,默认单机尝试的时候无须改配置,直接运行 bin/elasticsearch.bat 就可以了。
好派笔记
2021/11/02
6330
【迅搜19】扩展(二)TNTSearch和JiebaPHP方案
搜索引擎系列的最后一篇了。既然是最后一篇,那么我们也轻松一点,直接来看一套非常有意思的纯 PHP 实现的搜索引擎及分词方案吧。这一套方案由两个组件组成,一个叫 TNTSearch ,另一个则是大名鼎鼎的结巴分词的 PHP 版本。它们都是纯 PHP 实现的,非常轻量级的搜索引擎和分词工具,最主要的是,如果各位大佬有兴趣,可以深入学习它们的源码。之前就一直在强调,所有的原理都是相通的,通过对这两个组件的学习,其实就能清楚 Xapian 和 SCWS 也就是 XS 整个系统是怎么运行的。甚至也可以说,就能了解到 ES 和 IK 是大致是怎么运行的了。
硬核项目经理
2024/01/22
4720
【迅搜19】扩展(二)TNTSearch和JiebaPHP方案
Sphinx&coreseek实现中文分词索引
众所周知,mysql等数据库的LIKE模糊搜索不支持索引,因此查询效率极低,需要结合第三方索引引擎程序(索引程序)来提高查询性能。
CS逍遥剑仙
2018/10/11
1.7K0
Sphinx&coreseek实现中文分词索引
搜索引擎是如何处理同义词?
对于SEO人员而言,我们非常清楚,我们所撰写的一篇篇优质的文章,实际上,都是通过中文分词之后,针对整个关键词词库经过合理的算法排序,存储在搜索引擎索引库。
蝙蝠侠IT
2019/10/21
1.1K0
搜索引擎是如何处理同义词?
纯 MongoDB 实现中文全文搜索
MongoDB在2.4版中引入全文索引后几经迭代更新已经比较完美地支持以空格分隔的西语,但一直不支持中日韩等语言,社区版用户不得不通过挂接ElasticSearch等支持中文全文搜索的数据库来实现业务需求,由此引入了许多业务限制、安全问题、性能问题和技术复杂性。作者独辟蹊径,基于纯MongoDB社区版(v4.x和v5.0)实现中文全文搜索,在接近四千万个记录的商品表搜索商品名,检索时间在200ms以内,并使用Change Streams技术同步数据变化,满足了业务需要和用户体验需求。
MongoDB中文社区
2022/01/26
5.7K0
海量数据搜索---搜索引擎
在我们平常的生活工作中,百度、谷歌这些搜索网站已经成为了我们受教解惑的学校,俗话说得好,“有问题找度娘”。那么百度是如何在海量数据中找到自己需要的数据呢?为什么它搜索的速度如此之快?我们都知道是因为百度的搜索引擎,那么搜索引擎到底是个什么东西呢?可能有的程序员会想到es,但是es并不能代表搜索引擎,它只是其中的一种工具,不过这种工具确实好用,效率很高。
宜信技术学院
2019/06/28
3.2K0
【迅搜03】全文检索、文档、倒排索引与分词
今天还是概念性的内容,但是这些概念却是整个搜索引擎中最重要的概念。可以说,所有的搜索引擎就是实现了类似的概念才能称之为搜索引擎。而且今天的内容其实都是相关联的,所以不要以为标题上有四个名词就感觉好像内容很多一样,其实它们都是联系紧密的,一环套一环的。
硬核项目经理
2023/11/24
6540
【迅搜03】全文检索、文档、倒排索引与分词
推荐一个go的搜索引擎类库 riot
https://github.com/go-ego/riot/blob/master/README_zh.md
公众号-利志分享
2022/04/25
4280
【搜索引擎:Elasticsearch】从0了解ES,整合springboot,京东搜索实战
SQL : like %冷环渊% 但是数据量一旦变大了,就会变慢,这个时候用索引, 也是只能快一些
冷环渊
2022/04/17
1.2K0
【搜索引擎:Elasticsearch】从0了解ES,整合springboot,京东搜索实战
实现一个自己的搜索引擎的初始规划
  在想自己和刚毕业的时候处理问题有什么不同。刚毕业的时候如果想卸载停用什么东西提示说正在使用,我就去找个强力卸载软件。如果我想清理浏览器缓存,会直接用工具,如果想找到缓存路径选择性的清理,会百度一下
静儿
2018/07/02
8560
使用PHP+Sphinx建立高效的站内搜索引擎
假设你现在运营着一个论坛,论坛数据已经超过100W,很多用户都反映论坛搜索的速度非常慢,那么这时你就可以考虑使用Sphinx了(当然其他的全文检索程序或方法也行)。
Java架构师必看
2021/03/22
2.4K0
商品搜索引擎—分词(插件介绍与入门实例)
本文主要介绍四个分词插件(ICTCLAS、IKAnalyzer、Ansj、Jcseg)和一种自己写算法实现的方式,以及一些词库的推荐。
全栈程序员站长
2021/04/07
8400
聊聊搜索引擎背后的故事
结果让我懵逼,我搜到的第一条内容竟然不是拿来剔牙的工具,而是搜出了一位明星,江湖美誉 “吴牙签”。
程序员鱼皮
2021/07/28
1.5K1
Whose:轻量级搜索引擎工具
Whoosh 由 Matt Chaput 创建,它一开始是一个为 Houdini 3D 动画软件包的在线文档提供简单、快速的搜索服务工具,之后便慢慢成为一个成熟的搜索解决工具并已开源。 Whoosh 纯由 Python 编写而成,是一个灵活的,方便的,轻量级的搜索引擎工具,现在同时支持 Python2、3,其优点如下:
luckpunk
2025/01/18
760
一个可供参考的搜索引擎排序架构实践案例
全球性的搜索引擎 Google,看似简单的搜索框背后隐藏的是极其复杂的系统架构和搜索算法,其中排序(以下统称 Ranking)的架构和算法更是关键部分。Google 正是通过 PageRank 算法深刻改变搜索排序而一举击败众多竞争对手。本文将介绍有关搜索引擎排序的相关技术内容。
Spark学习技巧
2019/07/17
2.7K0
一个可供参考的搜索引擎排序架构实践案例
深入拆解'搜索引擎'实现原理二:创建索引
通过上一篇文章我们大致了解了'搜索引擎'的基本内容,包括'搜索引擎'的作用以及基本的实现过程:
浩说编程
2021/09/10
6050
实现自己的搜索引擎(一)
搜索引擎的原理其实很简单,写出来没两页纸,但是实现中的各种细节写成的论文可以堆满两个图书馆。
botkenni
2022/01/10
6520
推荐阅读
相关推荐
【迅搜02】究竟什么是搜索引擎?正式介绍XunSearch
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档