随着互联网的普及,智能终端设备渗透到我们生活的方方面面,我们能够获取信息的途径更多也更便捷了,遇到什么问题可以立刻去上查阅一下。小编觉得有什么能百度或者谷歌到的事情就不要去麻烦别人了,这样不仅不会因为一些愚蠢的问题耽误别人的生命,而且也省得自己在别人那里留下一个蠢兮兮的印象,一举两得。目前流行的有很多,像谷歌、百度、搜狗、360,还有老牌的雅虎等等,这些往往也有自己独立的站点和相关的其他服务。那么这些都是怎么工作的呢,下面我们来一起了解一下。
首先要有一个信息库,也就是所有我们可以搜索的文件、网页等各种资源都要包含在这个信息库里面。要承担起建立数据库的工作,也就是说要自己编写或者使用别人编写好的某种工具来从互联网上提取信息,主要的信息来源就是各个网页上的文字信息。
其次就是搜索策略,每个比较核心的部分就在这个搜索策略上面,它是一种搜集和整理信息的方法。能够实现搜索的算法有很多种,的创建者可以根据自己的喜好和用途来选择,比如一个比较有条理的创建者就可以选择按照信息的内容分类建立目录,然后根据目录检索,或者一个图省事的创建者也可以选择按照首字母顺序来建立目录,然后根据信息的首字母来查询,我们上学的时候开卷考试常常用这样的方式,因为在有题库的情况下这样查询最快最简单,不需要分辨信息的具体内容。
整理信息的方法也是因人而异,你可以把内容相关联的放在一起整理,也可以按照热度把热门的放在一起。只要你自己在后面使用这些信息的时候不用经过太复杂的搜索,能够找到一个行之有效的方式把信息组织起来就可以了。这些搜集和整理信息的算法有很多种组合也各有优劣,在实际应用中我们可以根据具体情况来选择。如果我们的用户普遍比较暴躁,希望快一点得到搜索答案,那么我们就要考虑牺牲一些存储空间或者选择性能比较好的运算能力比较强的硬件,当然价格也会高一些。如果我们的用户讨厌自己电脑内存被占用太多,那么我们就要考虑使用一些简单的策略,但是可能要牺牲掉一些效率和高级的逻辑。
最后我们要把这些信息进行一定的组织和处理,最终呈现在用户的眼前。首先要进行一点预处理,比如把一些格式上的无用的东西去掉,得到纯文本内容。然后按照一定的规则开始组织信息,我们可以按照内容和搜索目标的契合程度从高到低来排序,也可以按照搜索到的信息被其他网站链接、引用的次数从高到低来排序。我们往往不会从低到高来排序,这很容易理解,因为我们希望尽快到找到被大多数人认可和采纳的答案,而不是自己花费时间和精力从一些可信度比较低的网站和作者那里阅读和分辨对错,因为我们提问的往往是我们不了解的领域,大多数时候我们在这些领域不具备分辨能力。
当然了,有些出于盈利目的,会允许一些想要提高自己访问量或者推广自己产品的网站付费来将自己的页面显示在靠前的位置。需要强调的是,所有的都只是充当一个工具的作用,帮助我们建立一个渠道来通往各个充满我们可能感兴趣的信息的终点,对于搜索结果页面中的任何信息是没有义务证实真伪的。
本文由瓶子谈科技原创,欢迎关注,带你一起长知识!
(QQ:)是全国领先的在线新闻稿发布平台,团队由资深互联网专家组成,服务内容类涵盖软文发布、、微信营销、微博营销、视频置顶、百度问答等多种互联网广告行业。发稿网平台有上千媒介编辑、专业写手、段子手、营销专家,为企业、公共机构和个人提供定制化的解决方案,将创意、智慧、技能转化为商业价值和社会价值。发稿网平台凭借多年的网络资源和客户资源积累,发展遥遥领先同行业其他。