首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

什么是垂直搜索引擎(之二)

垂直搜索引擎的三个特点: 1、垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点:     比如:找工作的搜索引擎 www.deepdo.com 的数据来源于:www.51job.com , www.zhaoping.com , www.chinahr.com 等等;           股票搜索引擎 www.macd.cn 的数据来源于: www.jrj.com.cn , www.gutx.com 等股票站点; 2、垂直搜索引擎抓取的数据倾向于结构化数据和元数据:     比如:我们找工作关注的:         职位信息: 软件工程师;         公司名称,行业名称:软件公司,外包行业等;         地点:北京,海淀; 3、垂直搜索引擎的搜索行为是基于结构化数据和元数据的结构化搜索:         比如: 找:海淀 软件工程师 的工作等。 垂直搜索引擎站点的8条准则: 1、选择一个好的垂直搜索方向。俗话说男怕选错行,这一点对于搜索引擎来说也是一样的,除了选择的这个行业有垂直搜索的大量需求外,这个行业的数据属性最好不要和 Yahoo,Google等通用搜索的的抓取方向重叠。     目前热门的垂直搜索行业有:购物,旅游,汽车,工作,房产,交友等行业。搜索引擎对动态url数据不敏感也是众所周知的,这些可以作为垂直搜索引擎的切入点; 2、评价所选垂直搜索行业的网站、垂直搜索内容、行业构成等情况:     我们都知道垂直搜索引擎并不提供内容来源,它的数据依赖爬虫搜集,并做了深度加工而来的。因此考虑垂直搜索引擎的所处的大环境和定位至关重要。 3、深入分析垂直搜索引擎的索引数据特点:     垂直搜索引擎的索引数据过于结构化,那么进入的门槛比较低,行业竞争会形成一窝蜂的局面;如果搜索数据特点是非结构化的,抓取,分析这样的数据很困难,进入壁 垒太高,很可能出师未杰身先死。 4、垂直搜索引擎的索引数据倾向于结构化数据和元数据,这个特点是区别于yahoo,google等通用搜索引擎的,这是垂直搜索引擎的立足点。而垂直搜索引擎是根植于某一个行业 ,因此行业知识,行业专家这些也是通用搜索引擎不具备的。也就是说进入垂直搜索是有门槛的。 5、垂直搜索引擎的搜索结果要覆盖整个行业,搜索相关性要高于通用搜索引擎,贴近用户搜索意图,搜索结果要及时。 6、垂直搜索引擎的web 2.0 需求:     垂直搜索引擎的搜索数据由于带有结构化的天性,相对于通用搜索引擎的全文索引而言,更显的少而精。因此,设计的时候要提供收集用户数据的接口,同时提供tag,积 分等机制,使搜索结果更加“垂直”。 7、垂直搜索引擎的目标是帮助用户解决问题,而不只是向通用搜索引擎一样发现信息:     这一点是垂直搜索引擎的终极目标。 在做垂直搜索引擎的时候你需要考虑:什么问题是这个行业内的特殊性问题,什么问题是一般性问题。keso多次提到google的目标是 让用户尽快离开google,而垂直搜索引擎应该粘住用户。一般来说,使用垂直搜索引擎的用户都是和用户的利益需求密切相关的。所谓利益需求是我自己独创 的,大意是和用户工作密切相关,生活中必不可少的需求,而求有持续性。比如:学生找论文,业主找装修信息等等这样的需求。因此粘住用户,让用户有反馈的途 径是一个关键部分。 8、垂直搜索引擎的社区化特征:     这一条和第9条是相关的。     俗话说物以类聚,人以群分,垂直搜索引擎定位于一个行业,服务于一群特定需求的人群,这个特点决定了垂直搜索的社区化行为。人们利用垂直搜索引擎解决问题,分享回馈。现在做网站都讲求社区化,所以垂直搜索引擎本质上还是:对垂直门户信息提供方式的一次简化性的整合。     相关连接:什么是垂直搜索引擎

05
您找到你想要的搜索结果了吗?
是的
没有找到

搜索引擎的技术架构

元搜索引擎(Meta Search Engine)。 ■ 全文搜索引擎   全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。   从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。 在搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天), 蜘蛛搜索引擎搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。   当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。这种引擎的特点是搜全率比较高。 ■ 目录索引 虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。(更简单说就是网址导航网站)

02

通用搜索引擎的垂直化倾向

昨天,为了给我的程序加一个管理界面,我在google搜索框中输入 SWT ,后,出现了下图的显示结果页。很显然这项服务超出了google onebox 提供的功能。搜索引擎在猜测我输入swt 的含义,google开始智能化了。      而这正回应了前两天Google公司的首席执行官埃里克·施密特说的Google搜索引擎将融入人工智能的发言。    如果你是一个google fans 或许会注意到大概1个半月前的一则 google real estate beta 的新闻。http://ajaxian.com/archives/google-real-estate-beta google 搜索结果的垂直化表现为3个方式:    1 google onebox  http://www.google.com/help/interpret.html 2 如上图的搜索结果分区显示 3 类似 google real estate beat        同样,baidu 也在加紧垂直产品的研发。这是我spider整理的一个baidu子域名列表,很多人大概第一次知道百度竟然有这么多的服务 。如果你像我一样是baidu fans ,那么也一定会注意到baidu 最近的两个产品 :分类信息(或者是面向个人的信息发布服务),和少儿搜索,这也正是百度像垂直搜索领域拓展的信号。百度很google,也很中国,不作秀,埋头开发新产品,我想为百度叫好的人会越来越多。  丁磊说:门户网站将时刻准备着复制web2.0探索成功的模式,而mop早就这么干了。       现在最应该反思的是国内做垂直搜索的朋友们。我想如果垂直搜索还停留在搜索的层次上,那么在未来他们将站在失败的一边。 你们准备好了吗?

03

搜索引擎优化指南:SEO关键字、长尾关键字、短尾关键字以及反向链接

SEO 代表“搜索引擎优化”。它是一种数字营销策略,旨在提高网站或网页在搜索引擎未付费结果中的在线可见性。通常,网站在搜索结果页面中排名越高,或在搜索结果列表中显示的频率越高,它将从搜索引擎用户那里获得的访问者就越多。SEO 策略可以针对各种类型的搜索,例如图像搜索、本地搜索、视频搜索、学术搜索、新闻搜索和特定行业的垂直搜索引擎。它包括一系列活动,例如关键字研究和优化、链接建设和内容创建,旨在使网站更吸引搜索引擎。除了帮助提高可见性之外,SEO 还可以帮助改善网站的用户体验和可用性。

01

【重磅】33款可用来抓数据的开源爬虫软件工具

要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接

05

【推荐收藏】33款可用来抓数据的开源爬虫软件工具

要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。 爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接

05

对 2006 年 房地产互联网行业 的一点预测:

1.  中介公司互联网需求旺盛,有实力的中介公司逐步建立起自己的服务网站, 但处于一个困境, 服务于本地,市场不够大,扩张又现实 , 因此 大多 数中介公司仍然 倚赖 于和  互联网大公司合作,合作非常紧密 , 这部分收入也逐渐增多. 2.  建材,家装 行业 的互联网 广告宣传进一步 扩大. 除了 跟 房产门户合作外, 也有一部分流向 google , 百度 等互联网广告公司 , 这对 互联网房产 公司 来说 会造成收入的流失.   3房地产行业是: 强龙和地头蛇的关系.  顺驰很牛 在 广周 也 作不过 地头蛇 满堂红.  随者 房地产 中介行业 的进一步成熟,   地方中介公司会注重品派和持久经营, 顺驰类的 全国行业联锁公司 也会逐步 把资源集中于几个 大城市,改变以往 三珠 全国联锁的做法.   4分类广告网站 关闭 大部分.       分类广告网站 是 2005 年 在  kijiji 的带领下 冒出来的一个 网站群体 , 由于 大部分网站没有信息诚信保证,会逐步失去用户,变为 免费广告的集散地 , 进而 消失.  而房产中介信息是分类广告的一个组成部分 , 建议 原意 投入 房产行业的 分类广告网站 踏实心态 , 为中介公司服务,转行生存. 5. 房地产行业的垂直搜索引擎仍不能出现.     在旅游和购物行业垂直搜索引擎已经有了一部分公司,之所以有市场是因为顾客本身有信息鉴别能力,只需要了列出信息,即可自行判断 , 而房产行业水比较深,需要较多行业知识,且交易金大,才能做出决定. 因此房产行业的垂直搜索引擎仍只是锦上添花. 2006-01-01 第一次 在 linux 下写blog, 很爽.

04

为什么说有数据就意味着有钱?那又如何利用数据来挣钱呢?

这是一个“大数据时代”,很明显,它的核心是数据,那数据有什么价值(有钱)呢?如何从数据中提取价值(挣钱)呢?这些问题是我们今天要讨论的。开始讨论之前,先来说下为什么要写这篇文章。其实原因很简单,赶上月底,打算推荐两本对新手有帮助的书籍,但是这和写这篇文章有什么关系呢?其实是这样的,虽说当前很多号主都会有抽奖送书的活动,但是很少有人会仔细的去为每一本书写推荐理由,即便写,基本上也是直接搬运过来了书籍简介。因为我要做一个极客,所以我打算给大家推荐书籍时结合当前的一些技术情况以及这本书的特色来说明下书籍的价值,虽说会花费我不少的时间,但是我觉得这样除了能让大家认识这本书之外,还能学习和了解一些技术。好了,我们开始今天的主题吧!

04

200亿不是烧钱游戏?百度技术正在成为O2O关键变量

百度世界大会最受瞩目的当属“度秘”智能机器人秘书,它与用户语音对话,接收指令后帮助用户订咖啡、订餐厅、买电影票……这些可被归纳为获取线下生活服务。这是其与其他语音助手最大的不同。这些服务来自于百度糯米的整合,如果度秘未来能够像李彦宏期待的那样“无处不在”,向搜索框一样渗透在各个App和设备的话,百度糯米将获得更多流量来源,无疑是一大利好。秘书机器人的引入让百度糯米看上去又多了些技术含量。从本次世界大会来看,百度做O2O的思路已经非常清晰:用走搜索引擎的思路来做O2O。 有了200亿百度做O2O依然不想烧钱

07
领券