搜索引擎如何运作?
搜索引擎有三个主要功能:
抓取:在互联网上搜索内容,查看他们找到的每个网址的代码/内容。
索引:存储和组织在爬网过程中找到的内容。一旦页面在索引中,它就会在运行中显示为相关查询的结果。
排名:提供最能回答搜索者查询的内容,这意味着结果按最相关的顺序排列。
什么是搜索引擎抓取?
抓取是搜索引擎发送一组机器人(称为爬虫或蜘蛛)以查找新的和更新的内容的发现过程。内容可能会有所不同 - 可能是网页,图片,视频,PDF等 - 但无论格式如何,内容都是通过链接发现的。
那个词是什么意思?
遇到本节中任何定义的问题?我们的SEO词汇表具有章节特定的定义,可帮助您保持最新速度。
Googlebot首先提取几个网页,然后按照这些网页上的链接查找新网址。通过沿着这条链路跳过,爬虫能够找到新的内容并将其添加到名为Caffeine的索引中- 这是一个发现的URL的大型数据库 - 以便在搜索者查找该URL上的内容的信息时进行检索。很好的匹配。
什么是搜索引擎索引?
搜索引擎处理并存储他们在索引中找到的信息,索引是他们发现并认为足以为搜索者提供服务的所有内容的庞大数据库。
搜索引擎排名
当某人执行搜索时,搜索引擎会在其索引中搜索高度相关的内容,然后对该内容进行网络广告优势排序,以期解决搜索者的查询问题。搜索结果按相关性排序称为排名。通常,您可以假设网站排名越高,搜索引擎认为该网站对查询的相关性就越高。
可以阻止部分或全部站点的搜索引擎抓取工具,或指示搜索引擎避免在索引中存储某些页面。虽然可能有理由这样做,但如果您希望搜索者找到您的内容,则必须首先确保爬虫可以访问它并且可以编制索引。否则,它就像看不见一样好。
抓取:搜索引擎可以找到您的网页吗?
正如您刚刚了解到的那样,确保您的网站被抓取并编入索引是显示在SERP中的先决条件。如果您已经拥有一个网站,那么最好先看看索引中有多少页面。这将对Google是否正在抓取并查找您想要的所有页面提供一些很好的见解,而不是您没有。
检查索引页面的一种方法是site:yourdomain.com,一个高级搜索运算符。前往Google并在搜索栏中输入site:yourdomain.com。这将返回Google在其指定网站的索引中的结果:
Google显示的结果数量(请参阅上面的关于XX结果)并不准确,但它确实让您清楚了解哪些网页在您的网站上编制索引以及它们当前如何显示在搜索结果中。
要获得更准确的结果,请在Google Search Console中监控并使用索引覆盖率报告。如果您当前没有,则可以注册免费的Google Search Console帐户。使用此工具,您可以为您的网站提交站点地图,并监控实际添加到Google索引的已提交页面的数量等。
如果您没有在搜索结果中的任何位置显示,则可能有以下几种原因:
1.您的网站是全新的,尚未抓取。
2.您的网站未链接到任何外部网站。
3.您网站的导航使机器人难以有效地抓取它。
4.您的站点包含一些称为爬虫指令的基本代码,阻止搜索引擎。
5.您的网站因Google垃圾邮件策略而受到了处罚。
6.告诉搜索引擎如何抓取您的网站
如果您使用Google Search Console或site:domain.com高级搜索运算符,并发现索引中缺少某些重要页面和/或某些不重要的页面被错误编入索引,则可以进行一些优化实施以更好地指导Googlebot您希望如何抓取您的网络内容。告诉搜索引擎如何抓取您的网站可以让您更好地控制索引中的内容。
大多数人都会考虑确保Google能够找到他们重要的页面,但很容易忘记有可能是您不希望Googlebot查找的页面。这些可能包括具有精简内容的旧URL,重复的URL(例如电子商务的排序和过滤器参数),特殊促销代码页,登台或测试页等等。
要使Googlebot远离您网站的某些网页和部分,请使用robots.txt。
robots.txt的
Robots.txt文件位于网站的根目录(例如yourdomain.com/robots.txt)中,并建议您的网站搜索引擎应该和不应该抓取哪些部分,以及他们抓取您网站的速度,通过特定的robots.txt指令。
Googlebot如何处理robots.txt文件
1.如果Googlebot无法找到网站的robots.txt文件,则会继续抓取该网站。
2.如果Googlebot找到某个网站的robots.txt文件,它通常会遵守这些建议并继续抓取该网站。
3.如果Googlebot在尝试访问网站的robots.txt文件时遇到错误,但无法确定是否存在,则不会抓取该网站
优化抓取预算!
抓取预算是Googlebot在离开之前在您的网站上抓取的平均网址数,因此抓取预算优化可确保Googlebot不会浪费时间浏览您不重要的网页,而忽略了您的重要网页。抓取预算对于拥有数万个网址的超大型网站最为重要,但阻止抓取工具访问您绝对不关心的内容绝不是一个坏主意。只需确保不阻止抓取工具访问您已添加其他指令的网页,例如规范或无索引标记。如果Googlebot被阻止访问某个网页,则无法看到该网页上的说明。
并非所有网络漫游器都遵循robots.txt。意图不好的人(例如,电子邮件地址刮刀)会构建不遵循此协议的机器人。实际上,一些不良演员使用robots.txt文件来查找您的私人内容的位置。虽然从登录和管理页面等私有页面阻止抓取工具似乎合乎逻辑,以便它们不会显示在索引中,但将这些URL的位置放在可公开访问的robots.txt文件中也意味着具有恶意意图的人可以更容易地找到它们。NoIndex这些页面更好,并将它们放在登录表单后面,而不是将它们放在robots.txt文件中。