搜索引擎会记录数据吗的分类及其工作原理

文献管理与信息分析:搜索引擎工作原理、种类、以及如何使用
搜索引擎工作原理、种类、以及如何使用
一、搜索获取信息的能力,快速信息获取的能力。 2.1第一点的分析_搜索引擎出现的必然性:
搜索引擎的出现是因为知识量几何数量的增长,而我们获取知识的方式也开始互联网获取方式转向。2.2How search work
Google已经索引了60万亿个网页,抓取不同网站的信息,比对已有的数据库,存入新的信息。
对网站的质量进行判断,高质量放在前面等等等...2.3.1常用搜索引擎简介
关键词,关键词组合 逻辑关系 高级检索,直达答案
谷歌、百度、bing、360、搜狗
限定参数,优化搜索,缩小信息范围 ,结果检索,高级搜索
百度也是有高级搜索功能,其主要是从关键词的角度进行限制
通过关键词来实现检索目的 空格 表示 and 关系 减号关系 双引号 强制搜索其中一个关键词(表示通过一个关键词进行搜索)
2.3.2不同搜索引擎如何搜索图片
收录的信息范围有差异,谷歌会显示更多调控参数
不认识的东西拍照片就可以识别2.3.3命令检索
in title : + 你的名字
例如: in title : 文献管理
在搜索关键词的后面 by type + 文件类型
关键词后面+site 再加上你想找信息的网址。附上Google 常用的检索命令1、双引号
把搜索词放在双引号中,代表完全匹配搜索,也就是说搜索结果返回的页面包含双引号中出现的所有的词,连顺序也必须完全匹配。bd和Google 都支持这个指令。例如搜索: “seo方法图片”
减号代表搜索不包含减号后面的词的页面。使用这个指令时减号前面必须是空格,减号后面没有空格,紧跟着需要排除的词。Google 和bd都支持这个指令。 例如:搜索 -引擎 返回的则是包含“搜索”这个词,却不包含“引擎”这个词的结果
3、星号 星号*是常用的通配符,也可以用在搜索中。百度不支持*号搜索指令。 比如在Google 中搜索:搜索*擎 其中的*号代表任何文字。返回的结果就不仅包含“搜索引擎”,还包含了“搜索收擎”,“搜索巨擎”等内容。
4、inurl inurl: 指令用于搜索查询词出现在url 中的页面。bd和Google 都支持inurl 指令。inurl 指令支持中文和英文。
比如搜索:inurl:搜索引擎优化
返回的结果都是网址url 中包含“搜索引擎优化”的页面。由于关键词出现在url 中对排名有一定影响,使用inurl:搜索可以更准确地找到竞争对手。
5、inanchor inanchor:指令返回的结果是导入链接锚文字中包含搜索词的页面。百度不支持inanchor。
比如在Google 搜索 :inanchor:点击这里 返回的结果页面本身并不一定包含“点击这里”这四个字,而是指向这些页面的链接锚文字中出现了“点击这里”这四个字。
可以用来找到某个关键词的竞争对收,而且这些竞争对手往往是做过SEO 的。研究竞争对手页面有哪些外部链接,就可以找到很多链接资源。
6、intitle intitle: 指令返回的是页面title 中包含关键词的页面。Google 和bd都支持intitle 指令。
使用intitle 指令找到的文件是更准确的竞争页面。如果关键词只出现在页面可见文字中,而没有出现在title 中,大部分情况是并没有针对关键词进行优化,所以也不是有力的竞争对手。
7、allintitle allintitle:搜索返回的是页面标题中包含多组关键词的文件。 例如 :allintitle:SEO 搜索引擎优化
就相当于:intitle:SEO intitle:搜索引擎优化
返回的是标题中中既包含“SEO”,也包含“搜索引擎优化”的页面
8、allinurl 与allintitle: 类似。
allinurl:SEO 搜索引擎优化
就相当于 :inurl:SEO inurl:搜索引擎优化
9、filetype 用于搜索特定文件格式。Google 和bd都支持filetype 指令。
比如搜索filetype:pdf SEO
返回的就是包含SEO 这个关键词的所有pdf 文件。
10、site site:是SEO 最熟悉的高级搜索指令,用来搜索某个域名下的所有文件。
11、linkdomain linkdomain:指令只适用于雅虎,返回的是某个域名的反向链接。雅虎的反向链接数据还比较准
确,是SEO 人员研究竞争对手外部链接情况的重要工具之一。 比如搜索
linkdomain:cnseotool.com -site:cnseotool.com
得到的就是点石网站的外部链接,因为-site:cnseotool.com 已经排除了点石本身的页面,也就是内部
链接,剩下的就都是外部链接了。
12、related related:指令只适用于Google,返回的结果是与某个网站有关联的页面。比如搜索
related:cnseotool.com
我们就可以得到Google 所认为的与点石网站有关联的其他页面。 这种关联到底指的是什么,Google 并没有明确说明,一般认为指的是有共同外部链接的网站。
上面介绍的这几个高级搜索指令,单独使用可以找到不少资源,或者可以更精确地定位竞争对
inurl:gov 减肥
返回的就是url 中包含gov,页面中有“减肥”这个词的页面。很多SEO 人员认为GVM和学校网
站有比较高的权重,找到相关的GVM和学校网站,就找到了最好的链接资源。
下面这个指令返回的是来自.edu.cn,也就是学校域名上的包含“交换链接”这个词的页面:
inurl:.edu.cn 交换链接
从中SEO 人员可以找到愿意交换链接的学校网站。
或者使用一个更精确的搜索:
inurl:.edu.cn intitle:交换链接
返回的则是来自edu.cn 域名,标题中包含“交换链接”这四个字的页面,返回的结果大部分应
该是愿意交换链接的学校网站。
再比如下面这个指令:
inurl:edu.cn/forum/*register
返回的结果是在.edu.cn 域名上,url 中包含“forum”以及“register”这两个单词的页面,也就是
学校论坛的注册页面。找到这些论坛,也就找到了能在高权重域名上留下签名的很多机会。
下面这个指令返回的是页面与减肥有关,url 中包含links 这个单词的页面:
减肥 inurl:links
很多站长把交换链接页面命名为links.html 等,所以这个指令返回的就是与减肥主题相关的交换
链接页面。
下面这个指令返回的是url 中包含gov.cn 以及links 的页面,也就是GVM域名上的交换链接页面:
allinurl:gov.cn+links
很全面呢。,赞更多频道内容在这里查看
爱奇艺用户将能永久保存播放记录
过滤短视频
暂无长视频(电视剧、纪录片、动漫、综艺、电影)播放记录,
按住视频可进行拖动
&正在加载...
收藏成功,可进入
查看所有收藏列表
当前浏览器仅支持手动复制代码
视频地址:
flash地址:
html代码:
通用代码:
通用代码可同时支持电脑和移动设备的分享播放
用爱奇艺APP或微信扫一扫,在手机上继续观看
当前播放时间:
一键下载至手机
限爱奇艺安卓6.0以上版本
使用微信扫一扫,扫描左侧二维码,下载爱奇艺移动APP
其他安装方式:手机浏览器输入短链接http://71.am/udn
下载安装包到本机:
设备搜寻中...
请确保您要连接的设备(仅限安卓)登录了同一爱奇艺账号 且安装并开启不低于V6.0以上版本的爱奇艺客户端
连接失败!
请确保您要连接的设备(仅限安卓)登录了同一爱奇艺账号 且安装并开启不低于V6.0以上版本的爱奇艺客户端
部安卓(Android)设备,请点击进行选择
请您在手机端下载爱奇艺移动APP(仅支持安卓客户端)
使用微信扫一扫,下载爱奇艺移动APP
其他安装方式:手机浏览器输入短链接http://71.am/udn
下载安装包到本机:
爱奇艺云推送
请您在手机端登录爱奇艺移动APP(仅支持安卓客户端)
使用微信扫一扫,下载爱奇艺移动APP
180秒后更新
打开爱奇艺移动APP,点击“我的-扫一扫”,扫描左侧二维码进行登录
没有安装爱奇艺视频最新客户端?
.搜索引擎的分类及工作原理
正在检测客户端...
您尚未安装客户端,正在为您下载...安装完成后点击按钮即可下载
, 可在设置中重新打开噢!
30秒后自动关闭
.搜索引擎的分类及工作原理">.搜索引擎的分类及工作原理
请选择打赏金额:
播放量12.7万
播放量数据:快去看看谁在和你一起看视频吧~
更多数据:
Copyright (C) 2018 & All Rights Reserved
您使用浏览器不支持直接复制的功能,建议您使用Ctrl+C或右键全选进行地址复制
正在为您下载爱奇艺客户端安装后即可快速下载海量视频
正在为您下载爱奇艺客户端安装后即可免费观看1080P视频
&li data-elem="tabtitle" data-seq="{{seq}}"& &a href="javascript:void(0);"& &span>{{start}}-{{end}}&/span& &/a& &/li&
&li data-downloadSelect-elem="item" data-downloadSelect-selected="false" data-downloadSelect-tvid="{{tvid}}"& &a href="javascript:void(0);"&{{pd}}&/a&
选择您要下载的《
色情低俗内容
血腥暴力内容
广告或欺诈内容
侵犯了我的权力
还可以输入
您使用浏览器不支持直接复制的功能,建议您使用Ctrl+C或右键全选进行地址复制>> 搜索引擎的分类
搜索引擎的分类[]
搜索引擎的分类:搜索引擎的分类有:全文搜索引擎、目录索引类搜索引擎、元搜索引擎、通用搜索引擎、垂直搜索引擎等。搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
■ 全文搜索引擎
全文搜索引擎是名副其实的,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称&蜘蛛&(Spider)程序或&机器人&(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。   
■ 目录索引
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。    
■ 元搜索引擎
元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
■ 通用搜索引擎
通用搜索引擎就如同互联网第一次出现的门户网站一样,大量的信息整合导航,极快的查询,将所有网站上的信息整理在一个平台上供网民使用。
大家熟知的搜索引擎Google、、雅虎、必应、搜狗、有道等是通用搜索引擎现如今的杰出代,他们为互联网的发展做出了重要的贡献。
通用搜索引擎的缺点:信息量大、深度不够、查询不够精准
■ 垂直搜索引擎
垂直搜索引擎是专门针对某一个行业的专业搜索引擎,是通用搜索引擎的细分和延伸,对于网页库中的某类专们的信息进行处理、整合。定向分字段,抽取出需要的数据进行处理后再以某种形式返回给用户。
我们常见的、去哪儿、搜房等都是属于这一类的网站。
垂直搜索引擎优点:保证信息的收录齐全与更新及时、深度好、检出结果重复率低、相关性强、查准率高
通用搜索引擎与垂直搜索引擎的区别:
一、所谓通用搜索引擎,并不能够囊括所有的网页,据google的人说,也就猜测覆盖了40%不到的网页,也就是说,更多的网页是没有被通用搜索引擎收录的。那些没有机会收录的网页,有些是需要身份验证等之后才可以看到,有些是根本未被通用搜索引擎的蜘蛛爬到,这些信息却往往是宝贵的,更有价值的。
二、在搜索收录的分析过程中,如果不加上行业特点和特性进行分析,很难说会更准确分析到网页的重要性和分析的准确。这个也是垂直的意义所在。当然,并非你垂直了,你的搜索收录和搜索结果就一定比通用搜索更准确。
三、通用搜索引擎一般就是一次性给你很多的信息。从这个角度讲,我们所看到的信息就会呈现出很大一部分的搜索垃圾,影响用户的感受,以及继续试用搜索的兴趣。而垂直搜索引擎应该可以更好的做到理解垂直用户的需求,从而给出更好的结果。
四、从搜索信息的结果来看,除了上面的垃圾会过多外,还会存在信息不符合要求的情况,有时候用户搜索某类事物,并以此作为关键字,他需要的是关于这个事物的数量、价格等甚至相关比较信息,而通用搜索引擎只能给你线索,给你网页。通用搜索引擎由于自身巨大,他做不到更深入分析后给出更符合行业、用户需求的结果。
除此以外,垂直搜索引擎还可以粘住用户,从而区别通用搜索引擎。
五、在通用搜索引擎里面,其实也有类似产品服务的,如google的group和百度的贴吧。在这个分类里面,百度贴吧稍胜一筹。通过垂直搜索搜索引擎,是可以打造社区的。社区的一大特性是就是物以类聚,垂直搜索恰好是分类人群的很好途径。
六、由于垂直搜索引擎的服务对象有限,所以可以在基础成本上要少,从而可以更好为用户服务,可以在个性化服务上做得更好。
除上述三大类引擎外,还有以下几种非主流形式:
1、集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它&集合式&搜索引擎更确切些。
2、门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
3、免费链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。  
参考资料: 《网络营销基础与实践》
扩展阅读:
相关词条: &
合作编辑:
网络营销词典内容均由网友提供,仅供参考。如发现词条内容有问题,请发邮件至info # wm23.com。
浏览次数:10880
编辑次数:1
最近更新: 10:58:42
词条分类导航
最受关注词条搜索引擎分类与工作原理
我的图书馆
搜索引擎分类与工作原理
搜索引擎分类搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Directory )和元搜索引擎(Meta Search Engine)。 ■全文搜索引擎全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Yahoo! Search、Bing等,国内的有百度(Baidu)。它们都是通过从搜索引擎的爬虫(Crawler)从互联网上提取各个网站的信息(以网页文字为主),从而建立记录索引数据库,当用户搜索时,搜索引擎检索与用户查询条件匹配的相关记录,然后以一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。■目录索引目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo Directory雅虎目录。其他著名的还有Open Directory Project(DMOZ)等。国内的许多行业目录网站也都属于这一类。■元搜索引擎 (META Search Engine)元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表)。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo搜索引擎是怎么工作的搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎,通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列呈现给用户。现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以,有时候,即使某个网页A中并没有某个词比如“恶魔撒旦”,但如果有别的网页B用链接“恶魔撒旦”指向这个网页A,那么用户搜索“恶魔撒旦”时也能找到网页A。而且,如果有越多网页(C、D、E、F……)用名为“恶魔撒旦”的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F……)越优秀,那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关,排序也会越靠前。搜索引擎的原理,可以看做三步:从互联网上抓取网页信息→建立索引数据库→在索引数据库中搜索排序从互联网上抓取网页利用能够从互联网上自动收集网页的Spider(或Crawler)系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页信息收集回来。建立索引数据库由分析索引系统程序对收集回来的网页信息进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。在索引数据库中搜索排序当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。互联网虽然只有一个,但各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库,也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。
TA的推荐TA的最新馆藏[转]&
喜欢该文的人也喜欢关于搜索引擎的基础知识和工作原理-阿里云资讯网
关于搜索引擎的基础知识和工作原理
发布时间:
更新时间:
来源:网络
上传者:用户
搜索基础原理
摘要: 大家好,我是专门从事SEO的,几个月来一直都在维护和优化按摩器排行榜www.yziyuan.com这个网站,并从中总结了很多的经验和知识。今天要分享的是《搜索引擎基础知识和工作原理》,这
大家好,我是专门从事SEO的,几个月来一直都在维护和优化按摩器排行榜www.yziyuan.com这个网站,并从中总结了很多的经验和知识。今天要分享的是《搜索引擎基础知识和工作原理》,这是最基本的概念吧,
第一部分:什么是搜索引擎?
官方定义:
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。百度和谷歌等是搜索引擎的代表。
我的理解是:
按照搜索引擎的搜索规则去设置目标网站的内容,等用户搜索的时候,能够更好的展现给用户想要的内容!这样的一个服务过程就是通过一个叫搜索引擎的工具去实现的!
(1) 全文索引:
从整个互联网中提取各个网站的信息(以网页文字为主),通过自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序建立起数据库,搜索结果直接从自身的数据库中调用。并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。全文搜索引擎是目前广泛应用的主流搜索引擎,国外代表有Google,国内则有著名的百度。
SEO应该对这类搜索引擎的研究重点是:
关键词的匹配程度、出现的位置、频次、链接质量——
因为:当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。这种引擎的特点是搜全率比较高。
(2) 目录索引
用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。目录索引中最具代表性是Yahoo、新浪分类目录搜索,hao123。
(3) 元搜索引擎
(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如D有的则按自定的规则将结果重新排列组合,如Vivisimo。
(4) 垂直搜索引擎
是2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。精准度比较高!
(5)集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。
(6)门户搜索引擎
比如MSNSearch,特点是自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
(7)免费链接列表
免费链接列表(Free For All Links简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。
总结:做SEO离不开搜索引擎,从某种意义上来说SEO就是在和搜索引擎博弈的过程!我们做SEO,虽然不需要会写代码,也不需要深入的了解搜索引擎的技术细节,但是对搜索引擎的一些基本常识还应该了解一下有利于我们的优化工作!只有了解了搜索引擎的这些基本概念,我们在做起网站优化来才能游刃有余!
第二部分:搜索引擎的发展史
如今互联网的发展速度,网络上的资源远远的超出了人类的想想和掌控,如果没有搜索引擎我们根本就找不到我们想要的东西!尤其是社交网络的发展,比如facebook,twitter,微博等,移动应用的火爆增长,无论是从使用人数,网站的流量看?还是社会的影响力远远的超过了雅虎,谷歌等曾经的这些互联网巨头!那说这些和SEO有什么关系呢?只要有网络的地方就有搜索,有搜索的地方就从在SEO!
那么搜索引擎的发展史是什么样的?对我们做网站优化有什么需求和帮助呢?难道我们不了解搜索引擎的发展史就无法做好SEO吗?其实不是这样的,了解搜索引擎的发展史对我们做好网站优化会有更大的帮助!
搜索引擎的发展史我在这里就不会详细的去讲解了,如果感兴趣的同学可以去搜索引擎直通车这个网站上学习一下!
下面就来看一下搜索引擎增长所带来的价值:
这些数据能说明一下几个问题:
(1),搜索市场还在如日中天的火速发着!对于做SEO的从在很大的机会和金矿
(2)通过搜索引擎的增长,搜索引擎公司很大一部分收入都是来自于网络广告,其中SEM占的比例还很高,SEO是自然搜索排名。不需要话费很多钱就可以实现同样的价值;
(3) 其他的搜索也越来越亲近用户,SEO施展才华的地方多了起来!
(4)通过不同平台的竞争,社会的关注,体质不断的健全,对今后做SEO的企业也是一个很好的福音!
通过搜索引擎的发展速度我们可以很容易的判断出SEO在未来的重要性!了解搜索引擎的发展历史有助于SEO优化人员能更深刻的理解SEM的发展和变革!这样也有利于我们能够很好的把握住未来的方向!只有与时代同步了,我们才能不断的进步!搜索引擎的发展速度之快。对SEO来说是好事,只要搜索的地方就会有排名,有排名就会用到SEO技术!我们要做的就是不断的去关注这些动态变化,以便能更好的发挥SEO的长处!
大家都知道,互联网的发展速度不是一般的快!随着互联网的发展,搜索引擎的价值在不断的飙升着。你们为什么会用到这种搜索技术呢?是如何出现的呢?举个例子来说:我们的图书馆是藏书的宝地,当图书馆里面的书籍和文件随着时间不断增多的时候,就必然会出现一个问题,查找困难,管理也很困难,这时候该怎么办呢?通过目录管理,我们就可以对图书馆的所以文件实现规律性的管理,其实,我们的搜索引擎原理就是起源于这种传统的文件检索技术!那么搜索引擎真正的原理又是怎么一回事儿呢?我们继续往下看:
第三部分:搜索引擎的工作原理:
搜索引擎的工作原理大体上可以分为三个阶段:
(1) 爬行和抓取:
就是搜索引擎蜘蛛通过跟踪链接地址访问网站页面,把获取到的网站页面html代码放入到自己的数据库当中。
爬行和抓取是搜索引擎工作的第一步,主要是完成数据的收集任务;
解释几个关键词:
(1) 定义:我把他它叫做抓取网页数据时的执行者,其实它就是一个计算机程序,因为这个工作过程与现实中的蜘蛛很相像,专业内就称它为搜索引擎蜘蛛!
(2) 工作过程:蜘蛛程序向网站页面发出访问请求,服务器就会返回HTML代码,蜘蛛程序把收到的代码存入原始页面的数据库当中。蜘蛛访问任何一个网站时,都会最先访问网站根目录下的robots.txt文件!如果robots.txt文件禁止搜索引擎抓取某些文件或者目录,蜘蛛将会遵守这些禁止协议,不抓取那些被禁止的网址。
(3) 常见的搜索引擎蜘蛛名称:
百度蜘蛛、雅虎中国蜘蛛、Google蜘蛛、微软Bing蜘蛛、搜狗蜘蛛、搜搜蜘蛛、有道蜘蛛等等!
2,跟踪链接
大家都知道整个互联网是由相连接的网站页面组合成的!页面和页面之间是靠链接来联系的,搜索引擎能为了更快速的收集网站数据,就是通过搜索引擎蜘蛛去跟踪网站页面上的链接,从一个页面抓取到下一个页面!这个过程和蜘蛛在蜘蛛网上爬行一样!就这样蜘蛛可以快速的可以爬完整个互联网上的网站页面!
根据网站链接结构的不同我们可以把蜘蛛的爬行路线分为两种:深度爬行和广度爬行
A:深度爬行:蜘蛛沿着发现的页面链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另为一个链接再一直向前爬行!
B:广度爬行:蜘蛛在一个页面上发现多个链接时,不顺着一个链接一直往前爬行,而是把页面上所有的第一层链接都爬行一遍,然后再继续沿着第二层页面上发现的链接爬向第三层页面!一直这样进行下去……
所以,我们在做网站的时候,对网站的结构一定要有这两种布局,优化网站页面的时候也一定要做到两种链接布局!这样的结构是搜索引擎蜘蛛组喜欢的!
3,定向优化技术勾引蜘蛛
A:过读网站和页面的权重进行优化提高蜘蛛的来访次数。
B:做好页面的跟新频率和内容的质量
C:增加导入链接
D:距离首页的点击距离;距离首页点击距离越近,页面权重越高,蜘蛛爬行的机会越大
4,地址库,
搜索引擎会建立一个存放页面的地址库,目的就是为了避免搜索引擎蜘蛛重复爬行和抓取网址,这个地址库里面有已经被抓取的页面,也有被发现后还没有被抓取的页面!
这个地址库中的URL一定是蜘蛛抓取来的吗?答案是No
有人工录入的种子网站地址,也有站长通过搜索引擎网页提交表格提交进去的网址!
另为需要注意的是:网址提交了,也不一定就能被收录,这看你提交页面的权重如何了!不过搜索引擎蜘蛛还是跟喜欢自己沿着链接去抓去页面!自己得来的更好吃!
5,文件存储
搜索引擎蜘蛛抓取来的页面就存放在这个原始页面数据库中!其中每个URL都有一个独特的文件编号!
6,对复制内容的检测
有很多站长曾经碰到过这样的问题:在网站页面中发现了蜘蛛来爬行过,但是页面没有被收录过,不知道什么回事!其实很简单,很有可能是蜘蛛在爬行你网页的时候发现了很多权重比较低的内容,比如:转载或者伪原创的内容是,蜘蛛就会离开!你的网页也就没有被收录!蜘蛛在爬行抓取页面内容的时候也会对其进行一定程度的复制内容检测!
(2) 预处理
这个过程是指:索引程序对数据库里蜘蛛抓取来的网站页面进行处理,主要做文字提取,中文分词,索引等工作;
这个过程是起到一个桥梁的作用,由于搜索引擎数据库中的数据实在是太多了,当用户在搜索框中输入关键词后不可能一下就返回排名结果吗,但是往往我们感觉很快,其实起到关键作用的就是预处理这个过程!和爬行抓取过程一样他也是在后台提前完成的!
有些人认为预处理就是索引,其实不是这样的,索引只是预处理的一个主要步骤,那么什么是索引呢?索引是对数据库列表中的一列或者多列的值进行排序的一种结构!
在索引之前要做五个工作:
1, 提取文字:
我们知道蜘蛛抓取的是含有全部HTML代码的页面,这里面其实包含很多信息:有文字,有CSS属性,有大量的HTML格式标签,javascript程序!但是后面的两个是无法参与到排名内容中来的,也就是说除了文字之外其它的都给去掉了,这个过程就是去除过程,也叫提取文字的过程,即:提取出可以用于排名处理的网站页面文字内容!
注意:搜索引擎除了提取出可见的文字外,还可以提出以下不可见的文字内容;比如:METa标签中的文字内容,图片替代文字,FLASH文件的替代文字,链接锚文字等!
2, 中文分词
大家都知道中文句子和英文句子有一个不同的地方,不是字母和汉字的区别,而是,英文单词和单词之间是有空格分开的,中文句子里,字和字没有之间没有分隔符,一个句子中的词都是连在一起的!所以,这时候搜索引擎就必须先分辨一下哪几个字组成一个词,哪几个字本身就是一个词!比如:“波司登羽绒服”就将其分为“波司登”和“羽绒服”两个词;
中文分词一般有两种方法:
A:词典匹配:又分为正向和逆向匹配!
B:根据搜索统计
这两者往往混合使用!而且在百度和谷歌中分词的相关性有时候也不太一样,例如:搜索引擎优化,在百度中就是一个完整的词,而在谷歌中将其分成了“搜索”“引擎”“优化”三部分,所以在做优化的时候一定要注意选择的关键词的特点,后面我们会详细的讲解选词技巧。
注意:如果我们非要让一个词组合在一起,不让搜索引擎的分词技术把它分开怎么办?
我们可以这样做:在页面标题,h1标签,利用黑体表粗出现该关键词!这样就适当的去提醒了搜索引擎,搜索引擎就会知道我们这个词是一个组合就不会将其分开了!
3, 去停止词
什么是停止词?就是在页面中出现次数比较多的,对内容没有实质性影响的那些词;比如:“的”,“得”“地”这些助词,“啊”“哈”“呀”等感叹词,“从而”“以”“却”等副词或者介词,这些词就被称之为停止词!英文里有:the,a,an,to,of等等
搜索引擎去停止词主要有两个目的:
一个是:使索引数据主题更为突出,减少无谓的计算量;
另一个是:检测你的内容是否和另外数据库中的内容有大量的重复性
在这里需要提醒各位的是:以后不要随便在网上复制一篇文章加上几个停止词就粘到自己的网站上去了,学完上边的,你应该懂什么意思了!
4, 去除噪声:
这里的噪声不是我们所说的噪声,它是特指一种垃圾,即多余的字词!这些字词一般包含在声明文字,导航条,广告中!消除噪声是为了使得页面能更好的显示主题内容:
举例:博客中的“分类目录”“历史存档”等!
5, 去重(chong)
什么意思呢?假如一篇同样的文章出现在不同的网站上或者链接 到不同的地址上,搜索引擎就会认为它是一个文件,它并不喜欢这样的重复内容,所以它也不会去抓取的!在进行索引之前就需要对这些内容进行识别和删除重复的内容,就叫“去重”!
搜索引擎如何去重!技术我们不需要掌握,但是我们得注意几个关键点:
A:简单的增加“的”“地”“得”,是很容易的被识别的,一定要慎重使用!
B:复制别人的文章,简单的交换一下段落结构!这种伪原创也一定要慎重使用!
这是因为:这样的操作无法改变文章的特定关键词,上面的那些做法始终逃不过搜索引擎的去重算法。
经过上面的五个步骤后,搜索引擎就能得到独特的,能反映页面主要内容的,以词为单位的内容。
然后搜索引擎程序将上边提取到的关键词通过分词程序来划分好,把每一个网站页面都转化为一个关键词组成的集合!同时记录下每一个关键词在该页面上出现的频率、次数、格式(比如:标题标签、黑体、H标签、锚文本等)位置(第几段),这些都已权重的形式记录在下来!然后放到一个地方,这个地方就是专门放置这些组合词的词表结构——索引库!也交做“词表索引形式”
什么是正向索引:
每一个文件夹都对应一个ID,文件内容被表示为一串关键词的集合!在搜索引擎的索引库中,这时候关键词已经别转化成了关键词ID,这样的数据结构叫正向索引!
给大家画一张图就明白了:
文件ID内容
文件夹1关键词1,关键词2,关键词7,关键词10……关键词L
文件夹2关键词2,关键词7,关键词30……关键词M
文件夹3关键词2,关键词70,关键词35……关键词N
…………………………
文件夹7关键词2,关键词7,……关键词X
……………………
文件夹X关键词7,关键词50.,关键词Y
什么是倒排索引呢?
因为正向索引不能直接用于排名!比如:用户搜索某一关键词2,如果只从在正向索引,只能找到包含该关键词的文件夹,不能实际的返回排名;这时候就会用到倒排索引了
在倒排索引中关键词变成了主键,每个关键词对应一系列文件,每一个文件都出现了要搜索的关键词,这样用户在搜索某一个关键词的的时候,排序程序就能在倒排列表中找到这个关键词对应的文件!
详细请看图:
关键词文件
关键词1文件1文件2,文件17,文件110……文件L
关键词2文件2,文件7,文件30……文件B
关键词3文件2,文件7,文件30……文件U
…………………………
关键词6文件21,文件70,文件300……文件K
……………………
关键词7文件12,文件27,文件3……文件L
特殊文件的处理:
搜索引擎除了抓取HTNL文件还可以抓取以下文件类型:PDF,Word,WPS,PPT,TXT等这些文件,不过注意的是:搜索引擎还不能抓取图片、视频、Flash这类文字内容,也不能执行脚本和程序!所以在SEO的时候,你网站上面尽量少用这些!
链接关系的计算:
当搜索引擎抓取了页面后,还必须事先计算出页面上有哪些链接指向哪些页面。每个页面又有哪些导入链接,链接使用的什么锚文字,正是这些复杂的链接指向关系形式形成了网站和页面的链接权重!例如:google的PR值就是这些关系的重要体现,后面详解!
排名过程是与用户互动的过程:是指当用户输入关键词以后,排名程序调用索引数据库里面的数据,计算相关性后按照一定格式生成搜索结果页面!
1, 搜索词的处理过程
A:中文分词;前面讲过了
B:去停止词;前面讲过;
C:指令处理:搜索引擎的默认处理方式是在关键词之间使用“与”逻辑,比如用户在搜索“网站建设”时,搜索引擎默认为用户想要查找的既包含“网站”也包含“建设”的页面!
常见的搜索指令有加减号,还有哪些搜索指令?如何使用使用搜索指令,后面会详细拿出一节来详细讲解的!
D:如果用户输入了明显错的字或者英文单词的时候,搜索引擎会提示用户正确的用字或者拼法!例如:搜索“建站技数”
E:整合搜索触发!比如搜索明星,会出现图片,视频等内容!适合做热门话题;
2, 文件匹配如何进行?
这一部是在倒排索引中能快速的完成:看图
关键词文件
关键词1文件1文件2,文件17,文件110……文件L
关键词2文件1,文件7,文件30……文件B
关键词3文件2,文件7,文件30……文件U
…………………………
关键词6文件21,文件70,文件300……文件K
……………………
关键词7文件12,文件27,文件3……文件L
如果用户搜索的一个词,既有关键词2,也有关键词3的话,那么组后就会很精准的找到既包含关键词2,也包含关键词3的文件,然后返回!
3,初始子集如何选择?
互联网上的页面有成千上万个,搜索某一关键词出来的页面也会有上千万个,如果搜索引擎一上来就是直接计算页面相关性的话,那简直就是太费时间了!实际上用户是不需要看到这成千上万的页面的,用户只需要的是一两个有用的页面!这时候搜索引擎就会根据用户的搜索词预定的选择100个文件,然后进行返回,那么到底是选择哪一百个呢?这就看你网站页面和用户搜索的关键词的相关匹配度了!页面权重高的就会进入到搜索引擎的预选子集中!
4, 计算相关性
选完子集后就会计算页面的相关性,我们不需要知道搜索引擎是如何计算页面相关性的,但是我们的知道影响计算页面相关性的因素,这样更有助于我们进一步优化我们的网站!
SEO关注的因素有以下几个:
A:关键词的常用程度:举例“来吧UFO”
B:词频和密度
在没有关键词堆积的情况一下,一般认为搜索词在页面中出现的次数和密度越高,说明页面和搜索词的相关性也就越高!
C:关键词的位置和形式
位置研究主要有:首页还是二级页面?形式主要研究:标题标签,黑体,H1
D关键词的距离:例如搜索词是“网站建设”,如果页面中出现很多次连着的“网站建设”这个词,而不是分开的“网站”后面没有建设,或者有建设没网站!
E:链接分析和页面权重
链接和权重的关系主要是锚文字,有多少搜索词是以锚文字的链接导入的相关性就高
5, 排名过滤以及调整
当选出匹配的文件子集后,大体的排名就差不多确定下来了!这里做的排名过滤主要是针对于那些靠作弊手段,有作弊嫌疑的网站进行调整!虽然按照前面的工作最后就算出来的这些网站权重和相关性非常的高,但是搜索引擎在最后一步也会把这些网站给过滤掉的!
6, 排名显示的效果
主要显示的是:原始页面的标题标签,说明标签,快照日期等数据!
注意:有的网站是搜索引擎需要调用动态生成的页面摘要,而不是调用页面本身的说明!
7, 搜索引擎缓存的作用:
搜索引擎会把用户经常搜索的一些词记录下来,会把这些搜索过排名记录储存在搜索引擎的缓存当中,当由用户在一次搜索这个词的时候,搜索引擎会直接调用缓存中的内容!这样缩短了搜索反映时间,大大提高了排名效率!
上面是搜索引擎整个工作过程的详细的介绍!这些只是概念上的东西,其实搜索引擎的工作步骤和算法远比我们想想中的复杂!但是没关系,我们做SEO的只要明白了上面的这些基本概念就已经足够了!搜索引擎的算法还在不断的优化,感兴趣的同学可以多关注一下,这样也有利于自己在优化上有个新的突破!上面介绍的概念大致是主流搜索引擎的基本工作原理!
本文内容由互联网用户自发贡献自行上传,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:zixun-group@service.aliyun.com 进行举报,并提供相关证据,工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。
经常看大多数满腔热血和渴望的草根站长,黑子做站有八年多的时间,但是一直在兼职做,中间虽然赚了一些钱,但是也付出了很多时间和精力,去年年底放弃了实业开始专职做站,并且发表了一个帖子以示自励。半年的时间过去了,今天黑子在这里盘点一下过去半年的路,并且整理下思绪考虑未来的路。   去年年底放弃实业是因为我看上了装修网站这一个大好时机,在很多城市都有年收入过百万的装修网站,而随着网络化的发展和进一步...
自从前几次百度、google更新算法后,新站一般来说1,2个星期就足够被搜索引擎收录了,但是还是有许多新站不被收录。尤其是新站刚开始时要做的事情很多,有些人刚开始做站的时候,大大咧咧的,一不小心忘了哪个细节或者做了一些搜索引擎不喜欢的事情都有可能导致网站不被收录,而且在不被收录后找问题一般都是朝大方向去找,很少注意一些细节,或者对搜索引擎不了解,不知道搜索引擎的喜好,错了也不知道哪里出错,改...
经常看大多数满腔热血和渴望的草根站长,黑子做站有八年多的时间,但是一直在兼职做,中间虽然赚了一些钱,但是也付出了很多时间和精力,去年年底放弃了实业开始专职做站,并且发表了一个帖子以示自励。半年的时间过去了,今天黑子在这里盘点一下过去半年的路,并且整理下思绪考虑未来的路。   去年年底放弃实业是因为我看上了装修网站这一个大好时机,在很多城市都有年收入过百万的装修网站,而随着网络化的发展和进一步...
 在中国有着数以百万计的草根站长,但若论及成功,又有多少呢?用十之存一甚至都言之过多。原因为何?有技术的原因在作祟,也有个人思想的诸多不成熟所致,盲目的网站建设导致最后的入不敷出。但更多的原因是什么呢?笔者认为。   更多的草根站长之所以失败,是走了“铁公鸡”路线。坚持能省则省原则,是不铺张不浪费的优秀传统,但在网站建设中,如此做法也仅是保持了一个网站建设的根本。若仅凭此就想捞一笔,博得成功...
 今天之所以想到写这个,算是给自己建站两年来做个简单的小结吧,也希望借此让新站长们少走些弯路,希望对你们有所帮助。全以为戒!   直奔主题:   被骗经历一:   我是08年8月份左右做的第一个站,记得刚做站的时候,都是在网上找些免费的源码,自己修改修改就算是完工了,都是走流量路线,结果后来发现自己对网站的推广实在不行,就放弃流量路线,由于当时入手了一个自己觉得挺合适做地方站的域名0245....
大家好,我是木子成舟。前段时间我有好几个朋友有网站因为网站备案问题被关停了,我自己的也有网站受到了冲击,接着又听到很多站长因为网站备案问题发出的一片怨声,网站备案一直是国内站长在管理网站的时候的一个大问题,不是因为我们站长偷懒不想备案,而是真真切切的国内网站备案按照程序走的话,你等不起!不知道大家在网站备案的这个问题上受了多少伤?又有多少站长从此转站国外?今天我根据这个问题谈谈自己的一些看法...
若您要投稿、删除文章请联系邮箱:zixun-group@service.aliyun.com,工作人员会在5个工作日内回复。
售前咨询热线
服务与支持
账号与支持
关注阿里云
International

我要回帖

更多关于 交换机的功能 的文章

 

随机推荐