谷歌搜索是过程是完全自动的,瞬时的,它使用一种叫做网络爬虫的软件(也叫蜘蛛、机器人),定期探索整个网络,找到可以添加到数据库的页面和内容。事实上,搜索结果中列出的绝大多数页面都不是手动提交的,而是爬虫搜索网络时自动发现和添加的。本文介绍一下谷歌搜索的大体过程。掌握这些基本知识可以帮助解决爬行问题,为页面建立索引,并学习如何优化你的站点在搜索结果的显示方式。
想看看谷歌爬虫有没有发现和索引了你的网站?很简单,使用site命令即可,site:你的网址(注意是英文状态,网址不需要带http)
谷歌搜索的实现过程主要分为三部分:抓取,索引和呈现
第一步,爬虫遨游时发现了你的网页,它会下载文本,图片,视频等并且记录你的网址,这叫做抓取;分析抓取到的内容,存放到数据库,这叫做索引(怎么分析,怎么存放,较为复杂);当有用户在谷歌上进行搜索时,谷歌根据相关性算法迅速呈现搜索结果。下面详细展开。

做SEO必须要铭记在心的反spam政策
爬虫抓取
谷歌的抓取过程是指谷歌搜索引擎如何收集互联网上的网页内容。以下是谷歌抓取过程的基本步骤:
发现网页:Googlebot"或"Google蜘蛛"从互联网上的一个或多个起始点开始,查找新的链接,并将它们添加到待抓取的列表中。
请求网页:Googlebot向目标网页服务器发送HTTP请求,请求获取网页的内容。这个请求通常包含一个谷歌特定的User-Agent标识,以便网站服务器可以识别并与谷歌的爬虫进行交互。
获取网页内容:一旦网页服务器接收到Googlebot的请求,它会返回网页的HTML内容。Googlebot会解析HTML代码,提取网页的文本内容和链接。
解析链接:Googlebot会分析网页中的链接,并将找到的新链接添加到待抓取的列表中。这些链接可以是指向其他网页的超链接,也可以是指向图片、文档或其他资源的链接。
存储数据:Googlebot会将抓取的网页内容存储在谷歌的服务器上,以供后续的索引和排名过程使用。
处理JavaScript:谷歌的抓取程序可以解析和执行网页中的JavaScript代码。这使得它可以抓取使用JavaScript生成内容的网页,从而更好地理解和索引这些页面。
网页更新:谷歌会定期重新抓取已经爬过的网页,以获取更新的内容。抓取频率取决于网页的重要性、变化频率和其他因素。
需要注意的是,谷歌的抓取过程是自动化的,并且由多个分布在全球各地的服务器上的Googlebot并行执行。抓取过程是持续的,以确保谷歌搜索引擎的索引尽可能地反映互联网上的最新内容。
如果你想禁止爬虫抓取某些页面,可以在head标签内告诉爬虫,或者通过robots.txt来设置。反过来,如果你想尽快让爬虫抓取,robots.txt和head标签内一定不要阻挡爬虫,网页内容保持高质量原创,导航清晰,同时最好提交两种类型的网站地图,具体Will在后面会进一步介绍。
进行索引
谷歌的索引过程是指将抓取的网页内容进行处理和组织,以建立一个可以被搜索的网页索引。以下是谷歌的索引过程的基本步骤:
数据处理:谷歌将抓取的网页内容进行处理,去除HTML标签、提取正文文本、剔除重复内容等。这个过程有助于生成网页的纯文本表示形式,方便后续的索引处理。索引过程中处理重复页面或重复内容的一种方法是使用"canonical"标签,它可以指定一个规范的URL,表明该URL是重复页面中的首选版本或主要版本。通过使用Canonical标签,谷歌可以避免将重复的页面或内容视为独立的实体进行索引,从而避免搜索结果中出现重复或低质量的内容。相反,谷歌会将权重和相关性归于指定的规范URL,提高搜索结果的质量和相关性。
词法分析:谷歌使用一种称为词法分析(Lexical Analysis)的技术,将网页的文本内容切分成有意义的词语或术语,称为词项(terms)或关键词(keywords)。
建立倒排索引:谷歌根据词项构建倒排索引(Inverted Index)。倒排索引是一种数据结构,将每个词项与包含该词项的网页进行关联。通过倒排索引,谷歌可以快速找到包含特定词语的网页。
附加信息处理:除了纯文本内容和关键词,谷歌还处理网页的其他信息,例如标题、URL、网页结构等。这些信息可以用于改进搜索结果的质量和相关性,所以网页的标题,描述和正文的heading非常重要,对于图片,文件名以及atl属性值也很重要。
排名算法应用:谷歌使用一系列排名算法来确定搜索结果的顺序。这些算法考虑了诸多因素,如关键词匹配程度、网页的权威性、用户行为数据等。通过分析这些因素,谷歌能够根据搜索查询的相关性对网页进行排序。
更新索引:谷歌定期更新索引,以反映互联网上新的网页、已有网页的变化以及其他相关信息的更新。这确保了搜索结果的实时性和准确性。
需要强调的是,谷歌的索引过程是复杂的,并且结合了大量的算法和数据处理技术。谷歌致力于不断改进索引过程,以提供更准确、全面和有用的搜索结果。
呈现给用户
谷歌搜索的呈现过程是指将索引中的网页结果以及其他相关信息展示给用户的过程。以下是谷歌搜索的呈现过程的基本步骤:
用户查询:用户在谷歌搜索页面上输入搜索关键词或短语,并点击搜索按钮或按下回车键,向谷歌提交搜索请求。
搜索处理:谷歌接收到用户的搜索请求后,会使用一系列算法和技术来处理该请求。这些算法包括关键词匹配、查询理解、用户意图分析等,以确定最相关的搜索结果。
搜索结果排序:谷歌使用一系列排名算法和机器学习模型,对搜索结果进行排序。这些算法考虑了多个因素,如关键词匹配程度、网页的质量和权威性、用户反馈等。通过排序,谷歌努力提供最相关和有用的搜索结果。
呈现搜索结果页面:谷歌将排序后的搜索结果以特定的页面格式呈现给用户。搜索结果页面通常包括多个搜索结果条目,每个条目显示网页的标题、URL和描述等信息。此外,搜索结果页面还可能包括其他相关信息,如知识图谱、相关搜索、广告等。
搜索结果分页:如果搜索结果超过一页,谷歌将根据用户的浏览行为和搜索需求,将搜索结果分成多页,并提供翻页功能,使用户可以浏览不同页面的搜索结果。
特殊搜索功能:谷歌还提供各种特殊搜索功能,如图像搜索、新闻搜索、地图搜索、视频搜索等。这些功能能够根据特定的搜索类型或需求,呈现相关的信息和结果。
需要注意的是,谷歌不断改进搜索的呈现过程,并且根据用户反馈和行为进行优化。谷歌致力于提供用户友好、快速和准确的搜索体验,以满足用户的信息需求。