发了一篇文章,等了三天还没收录,你开始怀疑自己的网站是不是被降权了。
这种焦虑其实很常见,但大多数时候问题不在惩罚,而在于你根本不清楚谷歌收录一篇文章的完整流程是什么。你不知道它现在卡在哪一步,自然也不知道该做什么。
这篇文章把整个流程拆开来讲,每个阶段能做什么、能影响什么,说清楚。
先说一个容易被忽视的前提
很多人把"收录"和"排名"混为一谈。
收录只是谷歌把你的页面存进它的数据库,能被搜到。排名是这个页面在某个关键词下排到第几位。两件事,不一样。
你可以被收录但排名很差,也可能因为还没被收录所以完全搜不到。这篇只讲收录这件事。
第一阶段:发现(Discovery)
谷歌怎么知道你这篇文章存在?它不是扫描全互联网每一个角落的,它依赖的是链接。
具体来说有几条路:
Sitemap 提交:你在 Google Search Console 里提交了 XML sitemap,谷歌爬虫会定期来看这个文件,发现新 URL。
内部链接:你网站上其他页面链接到了这篇新文章,爬虫爬到旧页面时顺着链接过来了。
外部链接:其他网站链了你这篇文章,爬虫从外部过来的。
URL 检查工具手动提交:Search Console 里的"URL检查"功能,直接告诉谷歌这个地址存在,请求抓取。
这个阶段最常见的卡点是什么?
新文章发布后没有任何内部链接指向它。你把文章扔在那里,但网站其他页面完全没有提到它、没有链接到它,谷歌根本发现不了。这比你想象的要常见。
这个阶段能做的事:
发布后立刻去 Search Console 用 URL 检查工具手动提交,点"请求编入索引" 在网站相关的旧文章里加一条内部链接指向新文章 确认 sitemap 包含了新 URL,并且 sitemap 已经提交到 Search Console第二阶段:抓取(Crawling)
谷歌发现了你的 URL,接下来要派 Googlebot 去实际访问这个页面,把页面内容下载下来。
注意,"发现"和"抓取"之间是有时间差的。谷歌不会立刻就去抓,它有自己的抓取队列,优先级高的先抓,新站、权重低的站可能要等更长时间。
抓取这个阶段有几个东西会影响它能不能正常进行:
robots.txt:如果你的 robots.txt 写了 Disallow 禁止了相关路径,Googlebot 直接被挡在门外,什么都看不到。
服务器响应速度:服务器太慢、经常超时,Googlebot 会减少对你站点的抓取频率。
JavaScript 渲染问题:如果你的页面内容是靠 JS 动态加载的,Googlebot 第一次经过可能只抓到一个空壳,内容要等第二次渲染才能看到,这会延迟整个流程。
这个阶段能做的事:
检查 robots.txt,确认没有意外屏蔽了正常页面(这个错误真的有人犯,而且不少) 在 Search Console 的"覆盖率"报告里看有没有"已抓取-尚未编入索引"的状态,这说明抓了但卡在下一步 如果是 JavaScript 渲染的内容,考虑做服务端渲染(SSR)或者预渲染,降低谷歌处理的难度 保持服务器稳定,响应时间尽量控制在 200ms 以内第三阶段:渲染(Rendering)
抓取完页面的 HTML 之后,谷歌还要"渲染"这个页面——也就是模拟浏览器执行 JavaScript,看看页面最终呈现出来是什么内容。
这一步很多人没意识到它是独立的一个阶段。
谷歌的渲染资源是有限的,它会把渲染任务放进队列,可能几秒内完成,也可能要几天。对于权重高的老站,这个过程很快;对于新站或者低权重页面,可能会滞后很久。
如果你的核心内容、标题、正文全在 HTML 里,渲染快不快对你影响不大。如果你的内容依赖 JS 动态插入,这个阶段就很关键。
这个阶段能做的事:
用 Search Console 的 URL 检查工具,点"测试实际版本",看谷歌实际渲染出来的页面长什么样,跟你肉眼看到的是不是一致 尽可能把关键内容(标题、正文、结构化数据)写在 HTML 里,不要依赖 JS 注入 检查页面有没有阻塞渲染的资源,比如大尺寸同步加载的脚本第四阶段:编入索引(Indexing)
渲染完成后,谷歌开始分析页面内容,决定要不要把这个页面收进它的索引数据库。
注意,这里谷歌有主动权,它可以选择不收录。
常见的不收录理由:
内容质量太低:文章太短、内容稀薄、和已有页面高度重复,谷歌觉得这个页面对用户没什么价值,直接跳过。
canonical 标签设置错误:你把 canonical 指向了另一个 URL,谷歌就不会收录当前这个页面,而去收录你指定的那个。这是导致"为什么我的文章不被收录"的高频原因之一。
noindex 标签:<meta name="robots" content="noindex"> 直接告诉谷歌不要收录,很多人是无意间加上去的,尤其是用 CMS 的时候,有时候草稿状态的 noindex 设置在发布后没有取消。
内容重复:如果你这篇文章和你网站另一篇、或者其他网站的内容高度相似,谷歌会选其中一个收录,另一个就丢掉。
这个阶段能做的事:
检查页面源代码,搜索"noindex",确认没有意外的 noindex 标签 检查 canonical 标签指向是否正确 认真评估内容质量:文章是不是有足够的原创信息量?能不能解决用户的实际问题? 避免在同一个站内发布大量内容高度重叠的文章第五阶段:服务/排名(Serving)
页面被收录进索引之后,谷歌开始把它分配到相关搜索结果里。这才是你真正关心的那个阶段。
但这里要提醒一件事:刚被收录的页面,排名往往会经历波动。
谷歌有一个内部机制(外界通常叫它"沙盒效应"或新页面评估期),新页面刚收录时可能会被推到一个临时的位置,然后在接下来几周甚至几个月里上下浮动,直到谷歌积累了足够的用户行为数据,才会给一个相对稳定的排名。
这期间你可能今天搜排第三,明天搜排第十五,后天又回来了,这是正常的。
这个阶段能做的事:
建立一些相关的外部链接,帮助谷歌判断这个页面的权威性 优化页面的 Core Web Vitals,速度、交互体验是影响排名的直接因素 关注 Search Console 里的"效果"报告,看文章在哪些关键词下出现了展示,点击率怎么样 根据实际搜索数据回来优化标题和 meta description,提升点击率整个流程的时间线参考
没有一个固定的答案,但可以给你一个大概的参考范围:
这些数字不是谷歌官方公布的,是从大量实操经验中总结出来的参考值,实际情况因网站差异很大。
最后说一句
很多人遇到文章没被收录就开始各种折腾:改标题、改内容、重新发布,反而把问题搞复杂了。
先冷静地把每个阶段检查一遍——robots.txt 有没有问题、有没有 noindex、canonical 是否正确、有没有内部链接、内容质量够不够——80% 的收录问题都能在这几个地方找到答案。
找到真正的卡点,才值得动手。





京公网安备 11011402013531号