做外贸网站运营一定要了解SEO的4 个搜索阶段?有什么作用?

了解搜索引擎的工作原理是SEO专业人员的基础。以下是有关爬虫、呈现、索引收录和排名的一些讲解。


“爬虫、渲染、索引收录和排名之间有什么区别?”在本文中,我们将对搜索引擎的工作原理进行了解和学习,并介绍该过程的每个阶段。


将网络内容引入搜索结果涉及许多不同的过程。在某些方面,说只有少数几个离散的阶段来实现它可能是一种严重的过度简化。

我在这里介绍的四个阶段中的每一个都有几个子进程,这些子进程可以在其中发生。

除此之外,还有一些重要的过程可以与这些过程异步,例如:

  • 垃圾邮件监管的类型。
  • 将元素合并到知识图谱中,并使用信息更新知识面板。
  • 处理图像中的光学字符识别。
  • 音频和视频文件中的音频到文本处理。
  • 评估和应用 PageSpeed 数据。
  • 以及更多。

以下是使网页显示在搜索结果中所需的搜索主要阶段。

爬行—数据抓取

当搜索引擎从网站的服务器请求网页时,就会发生谷歌搜索引擎抓取。

想象一下,谷歌和微软Bing正坐在电脑前,在浏览器窗口中输入或点击网页的链接。

因此,搜索引擎的机器访问的网页与您类似。每次搜索引擎访问网页时,它都会收集该页面的副本,并记录在该页面上找到的所有链接。搜索引擎收集该网页后,它将访问其尚未访问的链接列表中的下一个链接。

这被称为“爬行”或“蜘蛛”,这是恰当的,因为网络隐喻是一个巨大的,互连链接的虚拟网络。

搜索引擎使用的数据收集程序被称为“蜘蛛”,“机器人”或“爬虫”。

谷歌的主要抓取程序是“Googlebot”,而微软Bing有“Bingbot”。每个都有其他专门的机器人来访问广告(即GoogleAdsBot和AdIdxBot),移动页面等。

搜索引擎处理网页的这个阶段似乎很简单,但仅在这个阶段,所发生的事情就有很多复杂性。

想想可以有多少个Web服务器系统,运行不同版本的不同操作系统,以及不同的内容管理系统(即WordPress,Wix,Squarespace),然后是每个网站的独特自定义。

许多问题可能会阻止搜索引擎的抓取工具抓取页面,这是研究此阶段涉及的细节的绝佳理由。

首先,搜索引擎必须在某个时候找到指向该页面的链接,然后才能请求该页面并访问该页面。(在某些配置下,已知搜索引擎怀疑可能存在其他未公开的链接,例如在子目录级别或通过一些有限的网站内部搜索表单在链接层次结构中向上升级一步。

搜索引擎可以通过以下方法发现网页的链接:

  • 当网站运营商直接提交链接或向搜索引擎披露站点地图时。
  • 当其他网站链接到该页面时。
  • 通过从自己的网站内链接到该页面,假设该网站已经将一些页面编入索引。
  • 社交媒体帖子。
  • 在文档中找到的链接。
  • 在书面文本中找到的 URL,而不是超链接的 URL。
  • 通过各种文件的元数据。
  • 以及更多。

在某些情况下,网站将指示搜索引擎不要通过其机器人抓取一个或多个网页.txt文件,该文件位于域和Web服务器的基本级别。

机器人.txt文件可以包含多个指令,指示搜索引擎网站不允许抓取特定页面,子目录或整个网站。

指示搜索引擎不要抓取网站的某个页面或部分并不意味着这些页面不能显示在搜索结果中。阻止他们以这种方式被抓取可能会严重影响他们为关键字排名的能力。

在其他情况下,如果网站自动阻止机器人,搜索引擎可能很难抓取网站。当网站的系统检测到以下情况时,可能会发生这种情况:

  • 机器人在一段时间内请求的页面比人类所能请求的要多。
  • 机器人同时请求多个页面。
  • 机器人的服务器 IP 地址在网站已配置为排除的区域内进行地理定位。
  • 机器人的请求和/或其他用户对页面的请求会淹没服务器的资源,从而导致页面的投放速度变慢或出错。

但是,搜索引擎机器人被编程为在检测到服务器难以跟上需求时自动更改请求之间的延迟率。

对于较大的网站和网页上内容经常变化的网站,“抓取预算”可能成为影响搜索机器人是否抓取所有网页的一个因素。

从本质上讲,网络是一个无限的网页空间,具有不同的更新频率。搜索引擎可能无法访问那里的每个页面,因此它们会优先考虑要抓取的页面。

如果具有大量网页或响应速度较慢的网站,如果其所有网页的排名权重相对较低,则可能会用完其可用的抓取预算。

值得一提的是,搜索引擎还请求所有用于编写网页的文件,例如图像,CSS和JavaScript。

就像网页本身一样,如果搜索引擎无法访问有助于撰写网页的其他资源,则可能会影响搜索引擎解释网页的方式。

网页渲染

当搜索引擎抓取网页时,它将“呈现”该页面。这涉及获取HTML,JavaScript和级联样式表(CSS)信息来生成页面对桌面和/或移动用户的显示方式。

这对于搜索引擎能够理解网页内容在上下文中的显示方式非常重要。处理JavaScript有助于确保他们可能拥有人类用户在访问页面时会看到的所有内容。

搜索引擎将呈现步骤分类为爬网阶段中的子进程。我在这里将其列为该过程中的一个单独步骤,因为获取网页然后解析内容以了解它在浏览器中的组成方式是两个不同的过程。

Google使用与Google Chrome浏览器相同的渲染引擎,称为“Rendertron”,它是基于开源Chromium浏览器系统构建的。

Bingbot使用Microsoft Edge作为其引擎来运行JavaScript和渲染网页。它现在也是建立在基于Chromium的浏览器之上的,因此它基本上呈现网页的方式与Googlebot非常相似。

Google 会将这些网页的副本以压缩格式存储在其存储库中。微软Bing似乎也这样做(但我还没有找到证实这一点的文档)。一些搜索引擎可能仅根据可见文本存储网页的速记版本,并剥离所有格式。

渲染主要成为SEO中依赖于JavaScript / AJAX的内容的关键部分的页面的问题。

Google和Microsoft Bing都将执行JavaScript以查看页面上的所有内容,而更复杂的JavaScript结构对于搜索引擎的运行可能具有挑战性。

古格西森科技见过JavaScript构建的网页,这些网页对搜索引擎基本上是不可见的,导致严重非理想的网页无法对其搜索词进行排名。

我还看到过这样的例子,即电子商务网站上无限滚动的类别页面在搜索引擎上表现不佳,因为搜索引擎看不到尽可能多的产品链接。

其他条件也会干扰渲染。例如,当有一个或多个JaveScript或CSS文件由于被机器人禁止进入子目录而无法访问搜索引擎机器人时.txt,则无法完全处理该页面。

Googlebot和Bingbot基本上不会将需要cookie的页面编入索引。基于 Cookie 有条件地提供某些关键元素的页面也可能无法完全或正确呈现。

索引收录

古格西森科技了解到一旦页面被抓取并呈现,搜索引擎就会进一步处理该页面,以确定它是否将存储在索引中,并了解该页面的内容。

搜索引擎索引在功能上类似于在书的末尾找到的单词索引。

书籍的索引将列出书籍中找到的所有重要单词和主题,按字母顺序列出每个单词,以及查找单词/主题的页码列表。

搜索引擎索引包含许多关键字和关键字序列,这些关键字和关键字序列与找到关键字的所有网页的列表相关联。

该索引在概念上与数据库查找表有一些相似之处,数据库查找表最初可能是用于搜索引擎的结构。但是,主要的搜索引擎现在可能会使用几代人更复杂的东西来实现查找关键字并返回与该单词相关的所有URL的目的。

使用功能查找与关键字关联的所有页面是一种节省时间的体系结构,因为每次有人搜索关键字时,实时搜索关键字都需要过多的不可行的时间。

由于各种原因,并非所有已抓取的网页都会保留在搜索索引中。例如,如果一个页面包含带有“noindex”指令的robots元标记,它会指示搜索引擎不要在索引中包含该页面。

类似地,网页可以在其HTTP标头中包含X-Robots-Tag,该标头指示搜索引擎不要将页面编入索引。

在其他情况下,网页的规范标记可能会指示搜索引擎将与当前页面不同的页面视为页面的主要版本,从而导致该网页的其他非规范版本从索引中删除。

Google还表示,如果网页质量低(重复内容页面,内容细页面以及包含全部或太多不相关内容的页面),则可能不会将其保留在索引中。

还有很长的历史表明,集体PageRank不足的网站可能不会将其所有网页编入索引 - 这表明外部链接不足的大型网站可能无法完全索引。

抓取预算不足还可能导致网站无法将其所有网页编入索引。

SEO的一个主要组成部分是在页面未被编入索引时进行诊断和纠正。因此,彻底研究可能损害网页索引的所有各种问题是一个好主意。

古格西森外贸网站排名优化

网页排名是搜索引擎处理的阶段,可能是最关注的阶段。

一旦搜索引擎拥有与特定关键字或关键字短语关联的所有网页的列表,它必须确定在搜索关键字时如何对这些页面进行排序。

如果你在SEO行业工作,你可能已经非常熟悉排名过程所涉及的一些内容。搜索引擎的排名过程也被称为“算法”。

搜索排名阶段的复杂性是如此之大,以至于仅凭它就值得多篇文章和书籍来描述。

有很多条件会影响网页在搜索结果中的排名。谷歌表示,其算法使用了200多个排名因素。

在许多这些因素中,也可能有多达50个“向量” - 可以影响单个排名信号对排名的影响。

PageRank是谷歌在1996年发明的最早的排名算法版本。它建立在一个概念之上,即链接到网页 - 以及指向该网页的链接来源的相对重要性 - 可以计算以确定页面相对于所有其他页面的排名强度。

对此的一个比喻是,链接在某种程度上被视为投票,投票最多的页面将比其他链接/投票较少的页面在排名中获胜。

快进到2022年,许多旧的PageRank算法的DNA仍然嵌入在谷歌的排名算法中。这种链接分析算法也影响了许多其他开发类似类型方法的搜索引擎。

旧的Google算法方法必须迭代处理网络的链接,在排名过程完成之前,在页面之间传递PageRank值数十次。这种跨越数百万页的迭代计算序列可能需要将近一个月的时间才能完成。

如今,每天都有新的页面链接被引入,Google以一种滴灌法计算排名 - 允许更快地考虑页面和更改,而无需长达一个月的链接计算过程。

此外,链接以复杂的方式进行评估 - 撤销或降低付费链接,交易链接,垃圾邮件链接,非编辑认可链接等的排名能力。

  • Expertise, Authoritativeness and Trustworthiness or E-A-T for short.
  • Quality
  • Location/Proximity
  • 个人搜索历史记录。
  • 加密与未加密(使用安全套接字层或 SSL)来传送网页,由“HTTPS”URL 前缀指示。
  • 移动友好性。
  • 页面速度。
  • 以及更多。


现在了解谷歌搜索引擎优化网站是成为SEO行业专业人士的必然项目,但是社交媒体中的一些名人不认为,仅仅因为他们不知道爬行,渲染,索引和排名之间的区别而没有雇用候选人是“走得太远”或“守门人”。所以古格西森外贸网站SEO专业人员可以帮助企业和工厂带来最后的网站优化排名,和免费的网站诊断。

了解搜索引擎的工作原理是SEO专业人员的基础。以下是有关爬虫、呈现、索引收录和排名的一些讲解。“爬虫、渲染、索引收录和排名之间有什么区别?”在本文中,古格西森科技将对搜索引擎的工作原理进行了解和学习,并介绍该过程的每个阶段。

Wbsem