Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >浏览器→搜索引擎→爬虫

浏览器→搜索引擎→爬虫

作者头像
石璞东
修改于 2020-04-22 14:12:43
修改于 2020-04-22 14:12:43
1.3K0
举报
文章被收录于专栏:石璞东 | haha石璞东 | haha

浏览器(也有人叫阅览器)大家都不陌生吧,大概10年前有一句火遍地球的潮话"百度一下,你就知道",相信看到这篇文章的你是不是曾经也在试卷上写过这句话呢,,哈哈,不开玩笑,今天我们就来聊聊浏览器,准确的说是讲讲搜索引擎。

Part.1

浏览器市场份额分析

根据国家计算机网络应急技术处理协调中心于2019年4月发布的“国内操作系统及浏览器占比情况分析”报告显示,在 PC 端的浏览器中,IE 浏览器占比最高,为 36.02%,较上季度占比下降约 10%。Chrome 浏览器占比为 25.70%,QQ 浏览器占比 19.84%,Firefox 浏览器占比 3.17%,搜狗浏览器占比2.34%,2345浏览器占比1.32%,Edge浏览器占比1.05%,360 浏览器占比 0.83%,Safari 浏览器占比 0.73%,其他PC端浏览器占比 9.00%。PC 端浏览器分布情况如下图所示。

对 IE 浏览器各版本分布情况进行分析,发现 IE7 占比最高,为 28.32%,较上季度占比下降约 11%。IE9 占比为 18.77%,较上季度占比上升约 7%。IE8 占比为 15.56%,IE6 占比为14.56%,IE11 占比为 13.18%,IE10 占比为 4.57%,其他 IE浏览器版本占比5.03%。PC端IE浏览器分布情况如下图所示。

在移动端的浏览器中,Chrome浏览器占比最高,为34.48%,与上季度占比基本一致。UC 浏览器占比 19.30%,QQ 浏览器占比 15.52%,Safari 浏览器占比 7.08%,OPPO 浏览器占比7.03%,vivo 浏览器占比 6.89%,MIUI 浏览器占比 2.30%,百度浏览器占比 0.80%,其他移动端浏览器占比 6.59%。移动端浏览器分布情况如下图所示。

根据我在国外数据分析机构StarCounter查到的结果,Chrome浏览器稳坐全球浏览器第一,其他浏览器市场份额均有所下滑。

初步得出结论,Chrome现在很火,回看国内,想必大家常用的就是百度、搜狗、QQ浏览器、UC浏览器等了吧,但是我想说一点:国内几乎所有的浏览器只是把国外的浏览器做了个深度定制,然后标上中国公司的名字,简单来说,就是浏览器内核用的是别人的,只是改了下外观。看下图User-Agent字段:

这个道理就类似手机系统,看国内,像是小米的MIUI系统、华为的EMUI系统还有魅族的flyme系统,去百度查查这些系统的介绍就知道,这些手机系统全是基于Android深度定制的。

ok,我给大家推荐我用的几个浏览器,首先PC端:搜狗高速浏览器(记着是高速浏览器)、Chrome,手机/Ipad:via、magi、搜狗、Chrome。

Part.2

搜索引擎及其技术架构

说完了国内外浏览器占比的分析,我们来说点干货,关注一下浏览器中very重要的一个part--搜索引擎。

从搜索引擎所采取的技术来说,可以将搜索引擎技术的发展划分为4个时代:

  • 史前时代:分类目录的一代

这个时代也被称为"导航时代",典型代表是Yahoo和国内的hao123,主要是通过人工收集整理,把属于各个类别的高质量网站或者网页分门别类罗列,用户可以根据分级目录来查找高质量的网站,并未采取什么高深的技术手段。缺点也很明显,可扩展性不强,绝大部分网站不能收录。

  • 第一代:文本检索的一代

文本搜索的一代采用经典的信息检索模型,比如布尔模型、向量空间模型或者概率模型,来计算用户查询关键词和网页文本内容的相关程度。网页之间有丰富的链接关系,而这一代搜索引擎并未使用这些关系。典型代表有Alta Vista、Excite等。

相比分类目录,这种方式可以收录大部分网页,并能够按照网页内容和用户查询的匹配程度进行排序。但是总体而言,搜索结果不是很好。

  • 第二代:链接分析的一代

第二代搜索引擎充分利用了网页之间的链接关系,并深入挖掘和利用了网页链接所代表的含义。简单来说,普遍认为被推荐多次的网页其实代表了其具有流行性,也就是现在大家所说的PageRank技术(由Google提出),但是这种搜索引擎并未考虑用户的个性化要求,所以只要输入的查询请求相同,用户就会获得相同的结果。除此之外,许多网站为了获得更高的搜索排名,针对链接分析法提出了不少链接作弊方案,从而导致质量变差。

  • 第三代:用户中心的一代

目前的搜索引擎都可以归为第三代,即以理解用户需求为中心,不同用户即使输入同一个关键词,但其目的也有可能不一样,因此搜索引擎呈现的结果也不一样。为了能够获取用户的真实需求,目前搜索引擎大都做了很多技术方面的尝试。比如利用用户发送查询词的时间和地理位置信息,利用用户以往发的查询词及相应的点击记录等历史信息等技术手段,来试图理解用户此时此地的真正需求。

一个真正好的浏览器,主要看三点:

  • 用户真正的需求是什么

用户输入的关键词是有限的,每个用户总结提炼问题的能力是不同的,不同用户输入同一个关键词期望得到的搜索结果也是不同的,如果不能理解用户的真正意图,那么从用户层面来讲,这就是一款不好的产品。

  • 哪些信息是和用户需求真正相关的

搜索引擎的本质是一个匹配的过程,即从海量的数据中找到能够匹配用户需求的内容,举个栗子,关键词搜索"石璞东",你就不能弹出"刘德华、吴亦凡等"这些人的信息,虽然我们很相近

  • 哪些信息是用户可以信赖的

搜索引擎需要处理的信息对象是互联网上任意用户发布的内容,但是内容发布者所发布的内容是否可信并无明确标准。这其间存在恶意的信息发布者故意歪曲事实的情况,也有信息发布者无心的错误。在同一个查询的搜索结果内,完全可能存在相互矛盾的搜索答案,此时信息的可信性即成为突出问题。

最典型的就是饱受诟病的某度,之前他们的竞价排名虽说给公司带来了巨额的利润,但是对于用户来说,这无疑是灭敌之灾。

最后我们在看看搜索引擎的技术架构:

当搜索引擎接收到用户的查询词之后,首先需要对查询词进行分析,希望能够结合查询词和用户信息来正确推导用户的真正搜索意图。在此之后,首先在缓存中查找,搜索引擎的缓存系统存储了不同的查询意图对应的搜素结果,如果能在缓存系统中找到满足用户需求的信息,则可以直接将搜索结果返回给用户,这样既省掉了重复计算对资源的损耗,又加快了响应速度;如果保存在缓存的信息无法满足用户的需求,搜索引擎需要调用"网页排序"模块功能,根据用户的查询实时计算哪些网页是满足用户需求的,并排序输出作为搜索结果。而网页排序最重要的两个参考因素中,一个是内容内容相似性因素,即哪些网页是和用户查询密切相关的;另外一个是网页重要性因素,即哪些网页是质量较好或者相对重要的,这点往往可以从链接分析的结果中获得。综合以上两个考虑因素,就可以对网页进行排序,作为用户查询的搜索结果。

除上述的子功能模块,搜索引擎的"反作弊"模块成为日益重要的功能。搜索引擎作为互联网用户的上网入口,对于网络流量的引导和分流至关重要,甚至可以说起了决定性的作用。于是,各种"作弊"方式逐渐流行,通过各种手段将网页的搜索排名提高到与网页质量不相称的位置,这会严重影响用户的搜索体验。所以,如何自动发现作弊网页并对其进行处罚,成为搜索引擎非常重要的部分。

Part.3

归根到底还是爬虫

一般来讲,像是百度、Google这种搜索引擎,它们有自己的Spider程序和数据库,我们称为"全文式搜索引擎",另一种是淘宝、京东等这种在站内进行搜索的,它们又被称之为垂直搜索引擎。具体搜索引擎分类的文章我之前已经写过了,此处不再赘述,请大家移步我的网站进行查看。

http://www.shipudong.com/2019/04/05/yi-dong-zhi-fu-na-xie-shi/

总结一下,首先我们入网的接口是浏览器,通过浏览器我们可以有选择性的获取互联网中的信息,而浏览器厂商有自己的spider程序,一年365天不间断的爬取互联网上的信息,并存储在自己的数据库中,供用户在查询的时候很快的呈现在用户的眼前。所以说,浏览器至关重要的一点就是,通过自己高效的爬虫程序,尽可能的爬取所有的信息,并通过Pr值等其他重要指标进行排序,最终呈现给用户。

声明

更多内容请移步我的公众号平台hahaCoder或者个人网站http://www.shipudong.com进行查看。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-12-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 hahaCoder 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
搜索引擎常用技巧总结
昨天晚上,我爸让我给他找zoncn变频器的手册,我看他在网上找的时候,关键词就输入了"zoncn变频器手册",我想好多人搜索东西都是这样吧,ctrl+c→ctrl+v→enter→得到结果,所以今天这篇文章就是教教大家如何高效的通过搜索引擎查找自己想要的东西。
石璞东
2020/04/21
9.4K0
搜索引擎常用技巧总结
移动支付&&搜索引擎
Part.1 移动支付那些事 大家都知道,二维码的普及极大的方便了大家的生活,甚至说是改变了人们的支付习惯,一个事物的兴起,必然要引起一些值得人们关注的重要信息,比如说,移动支付的兴起所带来的支付安
石璞东
2020/04/21
2.2K0
移动支付&&搜索引擎
终于有人把搜索引擎讲明白了
全世界每年产生1EB到2EB (1EB≈1018B)信息,相当于地球上每个人每年大概产生250MB信息。其中,纸质信息仅占所有信息的0.03%。静态网页有上百亿,动态及隐藏网页至少是静态网页的500倍。Tom Landauer认为人的大脑只能存储约200MB信息,一生只能接触约6GB信息。
IT阅读排行榜
2021/03/29
2.7K0
掌握搜索引擎技巧,从入门到精通
在这个信息爆炸的时代,如何快速准确地找到所需信息成为一项必备技能。本文将带你深入了解搜索引擎的运作机制,掌握高效的搜索技巧,让你的信息检索能力突飞猛进。
程序员NEO
2025/03/06
3770
掌握搜索引擎技巧,从入门到精通
推荐几个不追踪隐私的搜索引擎
毫无疑问,在中文搜索领域,「百度」独占鳌头。但众所周知,至少在目前,与「百度」这个浪漫的命名截然相反的是,百度是个口碑极其糟糕的产品。但是对于大多数的用户,彻底避免使用「百度」是一件较为困难的事情。
iMike
2019/08/13
6.2K0
推荐几个不追踪隐私的搜索引擎
搜索引擎的技术架构
元搜索引擎(Meta Search Engine)。 ■ 全文搜索引擎   全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。   从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。 在搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天), 蜘蛛搜索引擎搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。   当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度、出现的位置、频次、链接质量——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。这种引擎的特点是搜全率比较高。 ■ 目录索引 虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。(更简单说就是网址导航网站)
黄规速
2022/04/14
1.4K0
搜索引擎的技术架构
Python库之玩转Selenium
哈哈,帅哥出场怎么没有一点掌声呢,小姐姐小哥哥噪起来,let's cheer up,打起精神开始学习咯~本周我们要分享的是什么呢?来说说网站的浏览量吧,毕竟咱们做网站,写博客,肯定是希望越来越多的人能
石璞东
2019/07/26
1.2K0
【文心索引】搜索引擎测试报告
随着互联网技术的飞速发展,全球范围内的信息量呈现出爆炸式增长。网络已成为人们获取信息的主要渠道,每天有海量的网页被创建和更新,涵盖了新闻、学术、商业、娱乐等各个领域。然而,面对如此庞大的信息海洋,用户如何高效、准确地找到所需信息成为了一个巨大的挑战。
用户11316056
2025/03/08
1800
【文心索引】搜索引擎测试报告
搜索引擎looka_Alook浏览器使用方法教程[通俗易懂]
Alook极简且强大,致力成为iOS最佳浏览器。具有着与iCloud同步、内置14种语言翻译、自定义搜索引擎等多种功能,很多新用户还不知道如何使用这款APP,下面小编就和大家分享下Alook浏览器的使用教程。
全栈程序员站长
2022/07/23
2.9K0
360搜索引擎站长平台上线算法详解
360搜索引擎站长平台出台的算法不多,但是辐射的区间从网页内容质量、用户体验度、用户需求度以及搜索公正与用户安全展开;与百度搜索平台算法有相似之处,关于搜索安全,百度搜索引擎和360搜索引擎都会在搜索结果里面进行提示。
茹莱神兽
2022/02/06
9600
360搜索引擎站长平台上线算法详解
微博:搅局搜索引擎市场
搜狐IT/8月7日 8月2日,Twitter正式在Twitter.com网页版推出通用搜索功能。所谓通用搜索,是指Google和百度等搜索引擎提供的标配服务:搜索结果中融合呈现网页、图片、视频、新闻、本地等搜索结果。Twitter.com搜索在原有“结果”中,整合进人和照片,方便用户搜索信息流的同时,也找到相关的人和图片。   这意味着Twitter搜索正在从“站内搜索功能”向“主流搜索引擎”转变。Twitter搜索的特征是社交、实时和本地。具备类似特征的还有Facebook,以及国内的新浪微博和腾讯微博。
罗超频道
2018/04/26
1.3K0
将chatGPT与传统搜索引擎结合——创建新一代的搜索引擎
不到40天,ChatGPT的日活量已突破千万!而当年同样引起轰动的Instagram达到这一成就足足花了355天。
点火三周
2023/01/31
3.7K0
将chatGPT与传统搜索引擎结合——创建新一代的搜索引擎
搜索引擎-网络爬虫
通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件。
黄规速
2022/04/14
8480
搜索引擎-网络爬虫
搜索引擎技术之概要预览
近些天在学校静心复习功课与梳理思路(找工作的事情暂缓),趁闲暇之际,常看有关搜索引擎相关技术类的文章,接触到不少此前未曾触碰到的诸多概念与技术,如爬虫,网页抓取,分词,索引,查询,排序等等,更惊叹于每一幅精彩的架构图,特此,便有记录下来的冲动,以作备忘。
全栈程序员站长
2022/07/09
7170
搜索引擎技术之概要预览
搜索引擎你真的会用吗?
前两天浏览了一位SEO大佬的公众号,讲的很棒。SEO全称Search Engine Optimization缩写而来, 中文为“搜索引擎优化”。 SEO是指通过对网站内部调整优化及站外优化,使网站满足搜索引擎收录排名需求,在搜索引擎中关键词排名提高,从而把精准用户带到网站,获得免费流量,产生直接销售或品牌推广。
不安分的猿人
2020/03/02
9810
搜索引擎的工作原理
搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。
全栈程序员站长
2022/09/09
1.7K0
搜索引擎工作原理
索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,为后面排名程序使用时做准备。
zz_jesse
2021/07/12
1.7K0
搜索引擎工作原理
5 分钟让你了解什么是搜索引擎
👋 你好,我是 Lorin 洛林,一位 Java 后端技术开发者!座右铭:Technology has the power to make the world a better place.
Lorin 洛林
2024/02/05
7350
搜索引擎的检索模型-查询与文档的相关度计算
搜索结果排序时搜索引擎最核心的部分,很大程度度上决定了搜索引擎的质量好坏及用户满意度。实际搜索结果排序的因子有很多,但最主要的两个因素是用户查询和网页内容的相关度,以及网页链接情况。这里我们主要总结网页内容和用户查询相关的内容。
黄规速
2022/04/14
1.6K0
搜索引擎的检索模型-查询与文档的相关度计算
搜索引擎的原理
搜索引擎蜘蛛(spider),可简称为蜘蛛,本意为搜索引擎机器人(robot),称为蜘蛛的原因是将互联网比喻成蜘蛛网,将机器人比喻成了在网上爬行的蜘蛛,是搜索引擎自动抓取网页的程序。
阳光岛主
2019/02/19
1.4K0
相关推荐
搜索引擎常用技巧总结
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档