搜索引擎是如何建立索引的

最著名的搜索引擎,例如 Google 和 Bing,其搜索索引中有数万亿个页面。因此,在讨论排名算法之前,让我们更深入地研究用于构建和维护 Web 索引的机制。

这是 Google 提供的基本流程:

分解之后就是:

  1. URL
  2. 抓取
  3. 处理 & 渲染
  4. 索引

小提示.?这个过程专门适用于 Google,但对于其他网络搜索引擎(如 Bing)来说,可能非常相似。还有其他类型的搜索引擎,例如A mazon,YouTube 和 Wikipedia,它们仅显示其内部的页面结果。

步骤 1. URL
一切都始于已知的 URL 列表。 Google 通过各种方法发现了这些,但是最常见的三种是:

通过外链
Google 已经有一个包含数万亿个网页的索引库。如果某人在这些页面中添加了一个链接指向了自己的网站,那么 Google 可以从那些页面中找到链接。

你可以使用 Ahrefs Webmaster Tools(Ahrefs站长)中免费的 Site Explorer(网站分析)去查看网站的外链。

  1. 注册免费的 Ahrefs Webmaster Tools(Ahrefs站长)账号
  2. 将你的网站放入 Site Explorer(网站分析)
  3. 进入外链报告。

我们的爬虫程序是第二活跃的仅次于 Google。因此你应该在此处看到相当完整的外链数据报告。

来自网站地图
站点地图列出了你网站上的所有重要页面。如果你将站点地图提交给 Google,则可以帮助他们更快地找到你的网站。

来自 URL 提交
Google 还允许通过 Google Search Console 提交单个 URL。

步骤 2. 抓取

抓取是一种称为蜘蛛的抓取程序(例如 Googlebot)访问并下载发现的页面的地方。

重要的是要注意,Google 并不总是按照发现页面的顺序对其进行抓取。

Google 会根据以下因素对要抓取的 UR L进行排序,其中包括:

  • URL 的 PageRank
  • URL 多久更改一次
  • 是否是新的

这很重要,因为这意味着搜索引擎可能会在某些页面之前对其他页面进行抓取和索引。如果你的网站很大,搜索引擎可能需要一段时间才能完全抓取它。

步骤 3. 处理

Google 会在处理过程中从抓取的页面中提取关键信息。 Google 以外的人都不知道有关此过程的细节,但是我们认位重要部分是提取链接和存储内容并进行索引。

Google 必须渲染页面以对其进行完全处理,而 Google 会运行页面的代码以了解外观对用户的影响。

也就是说,在渲染之前和之后都会进行一些处理——如你在图中所看到的。

步骤 4. 索引

索引是将抓取页面中的信息添加到叫做搜索索引的大型数据库中。本质上,这是一个由数万亿个网页组成的数字图书馆,Google 的搜索结果都来自于此。

这是重要的一点。当你在搜索引擎中搜索时,你并不是直接匹配互联网上的结果。而是在搜索搜索引中进行匹配的。如果网页不在搜索索引中,则搜索引擎用户将找不到它。这就是为什么让你的网站在 Google 和 Bing 等主要搜索引擎中建立索引如此重要。 

发表评论

您的电子邮箱地址不会被公开。

lol外围下注 bb视讯安全出款的平台 lol比赛买外围 都用什么平台买球 能买lol比赛外围的网站
DOTA2电竞买比赛网站 买电竞比赛输赢的app LOLS12买比赛的平台 英雄联盟S12下注平台有什么 外围买球哪个网址
英雄联盟S12全球总决赛竞猜活动 买球比较安全的网站 万博最新网址 华体会官网平台 英雄联盟S12夏季赛
英雄联盟S12总决赛比赛竞猜 怎么押注lolS12 网上赌彩票平台有哪些 英雄联盟S12下注APP 腾飞娱乐平台