首页/博客/SEO教程/robots.txt、noindex、canonical 教程：什么时候该拦，什么时候该放

SEO教程

按课程顺序阅读，每一课只解决一个核心问题，节奏更接近正常课程目录。

第 11 课共 80 课

第 1 课SEO 是什么：从搜索引擎、用户需求到商业增长的完整解释第 2 课关键词研究完整教程：不是找词，而是识别需求和机会第 3 课搜索意图怎么判断：信息型、商业型、交易型和导航型关键词拆解第 4 课SEO 页面类型大全：产品页、分类页、对比页、指南页、FAQ 页怎么选第 5 课内链怎么做：不是随便加链接，而是建立主题权重流第 6 课SEO 内容怎么写：从搜索意图到页面大纲的完整流程第 7 课EEAT 是什么：经验、专业、权威、可信如何落到页面上第 8 课技术 SEO 入门：抓取、索引、渲染和排名的关系第 9 课网站速度和 Core Web Vitals：哪些指标真的影响 SEO 第 10 课结构化数据 Schema 教程：先选型，再上 FAQ、Product、Article、Breadcrumb 第 11 课robots.txt、noindex、canonical 教程：什么时候该拦，什么时候该放第 12 课JavaScript SEO：搜索引擎到底能看到什么第 13 课结构化数据实战扩展：Google 当前还支持哪些类型，以及如何选型第 14 课搜索结果富媒体怎么影响点击率：FAQ、评分、面包屑、视频位到底值不值得做第 15 课SEO CTR 优化怎么做：标题、描述、富媒体、品牌信号如何一起提升点击第 16 课SEO 内容更新怎么做：旧内容刷新、重写与删除的决策框架第 17 课SEO 内容合并怎么做：关键词内耗、重复页面与主题收拢的处理方法第 18 课SEO 监控怎么做：排名、点击、页面价值与动作优先级的看板框架第 19 课SEO 实验怎么做：假设、变量、验证周期与结果解读的方法第 20 课SEO 报告怎么写：给老板、运营、内容团队分别看什么第 21 课SEO 内容集群怎么搭：主题地图、内链和页面分层方法第 22 课SEO 内容集群效果怎么评估：指标、看板与复盘第 23 课SEO 内容集群如何做主题选题地图与 URL 规划第 24 课Programmatic SEO 怎么做：模板页、变量、质量边界与收录策略第 25 课SEO 落地页模板怎么做：集合页、比较页、地区页与转化页的结构设计第 26 课SEO 内容资产怎么治理：更新、合并、下线、重定向与历史内容维护第 27 课SEO 内容审计怎么做：盘点、评分、优先级与年度维护计划第 28 课SEO 内容更新计划怎么排：季度节奏、团队分工、工单流与复盘机制第 29 课SEO 站内搜索怎么做：搜索词洞察、零结果页、筛选词与内容机会第 30 课SEO 分类页怎么做：可索引筛选、参数页、聚合页与防重复策略第 31 课SEO 参数页怎么治理：排序、分页、会话参数与抓取预算第 32 课SEO 标签页怎么做：Tag、Topic、Hub、Archive 的边界第 33 课SEO 面包屑与站点层级怎么做：分类树、URL 树与主题树统一方法第 34 课SEO 分页怎么做：列表页、无限滚动、分页信号与索引策略第 35 课SEO 产品页怎么做：标题、参数、FAQ、评价与转化结构第 36 课SEO 服务页怎么做：城市页、行业页、方案页与证据结构第 37 课SEO 对比页怎么做：A vs B、替代页、选型页与商机承接第 38 课SEO 定价页怎么做：价格词、套餐页、报价页与商业意图承接第 39 课SEO 帮助中心怎么做：FAQ、知识库、教程页与支持页结构第 40 课SEO 文档站怎么做：开发文档、API 文档、版本页与索引策略第 41 课SEO 案例页怎么做：行业案例、结果证明、信任与转化路径第 42 课国际 SEO 入门：多语言、多地区、hreflang 与站点结构第 43 课多地区 SEO 怎么做：国家站、区域站、城市站与内容差异化第 44 课翻译页 SEO 怎么做：机器翻译、人工审校、索引与质量边界第 45 课SEO 日志分析怎么做：抓取频次、浪费抓取与异常 URL 第 46 课SEO 自动化怎么做：批量监控、规则检查与告警第 47 课SEO 数据仓库怎么搭：搜索数据、内容数据与转化数据打通第 48 课SEO QA 流程怎么做：上线检查、回归验证与事故预防第 49 课AI 搜索时代的 SEO：Overview、答案引擎与点击变化第 50 课什么内容更容易被 AI 引用：结构、证据、实体与可抽取性第 51 课AI 风险内容怎么治理：薄页、拼接页、低原创与过度模板化第 52 课品牌词在 AI 时代怎么守：品牌 SERP、防截流与信任构建第 53 课SEO 团队怎么搭：角色、能力模型、外包协作与验收机制第 54 课SEO 预算怎么排：内容、开发、外链、工具与回报预估第 55 课SEO 项目管理怎么做：路线图、优先级、风险与里程碑第 56 课SEO 与广告、内容、销售怎么协同：跨团队增长机制第 57 课SEO 改版怎么做：导航、模板、URL、模块调整的风险控制第 58 课SEO 迁移怎么做：域名迁移、目录迁移、协议切换与 301 策略第 59 课SEO 大站治理怎么做：千万级 URL、抓取预算与站点收口第 60 课SEO 异常波动怎么排查：算法、技术、内容、外链与业务变化第 61 课图片 SEO 怎么做：文件名、alt、上下文、图片搜索与商品图优化第 62 课视频 SEO 怎么做：视频页、章节、字幕、Schema 与视频位获取第 63 课UGC 页面 SEO 怎么做：评论、问答、论坛、社区页与质量控制第 64 课资讯/博客栏目 SEO 怎么做：栏目页、专题页、作者页与归档页第 65 课本地 SEO 入门：地图、本地包、NAP、一致性与门店页第 66 课门店页 SEO 怎么做：地址、营业时间、评价、地图与服务证明第 67 课评价与口碑 SEO 怎么做：评论页、评分、FAQ 与信任放大第 68 课区域服务页 SEO 怎么做：服务半径、商圈页、区域页与重复控制第 69 课外链策略怎么做：数字 PR、资源页、研究内容与安全边界第 70 课品牌实体 SEO 怎么做：组织信息、一致性、知识面板与引用源第 71 课数据研究内容怎么做：行业报告、统计页、研究型内容与被引用策略第 72 课可链接资产怎么做：工具页、模板页、清单页与自然提及增长第 73 课收录异常怎么排查：突然掉索引、部分掉索引与错误信号识别第 74 课排名下滑怎么排查：内容衰减、竞争变化、技术问题与意图漂移第 75 课流量恢复怎么做：优先级、快速止损与恢复路线图第 76 课SEO 事故复盘怎么做：根因、影响面、补救动作与制度修复第 77 课电商 SEO 全链路实战：类目、商品、筛选、评论、库存与转化第 78 课SaaS SEO 全链路实战：功能页、文档、对比、案例、定价与试用第 79 课B2B / 企业站 SEO 实战：行业页、方案页、案例、白皮书与线索质量第 80 课SEO 体系总复盘：从第 1 课到第 80 课，如何落成年度增长系统

robots.txt、noindex、canonical 教程：什么时候该拦，什么时候该放

搜

搜投工具 SEOSEMTool 编辑部

内容作者 / SEO 编辑

适合读者

SEO 团队 / 独立站运营 / 内容负责人

SEO教程2026-04-2617分钟56 阅读

robots.txt、noindex、canonical 教程：什么时候该拦，什么时候该放

这是“SEO教程”系列第 11 课。前面我们已经讲了技术 SEO、页面速度、结构化数据，这一课继续往下解决一个极高频误区：很多团队把 robots.txt、noindex、canonical 混着用，结果不是页面该收录的不收录，就是本来该拦的 URL 被大量抓取。

robots.txt、noindex、canonical 教程：什么时候该拦，什么时候该放

先给结论：robots.txt、noindex、canonical 解决的是三个完全不同的问题

很多人会把这三者混成一句话：

我不想让这个页面出现在 Google，就把它拦掉。

这句话通常会引发配置错误。

更准确的理解应该是：

robots.txt：控制能不能抓
noindex：控制能不能进索引
canonical：控制重复内容中谁是主版本

这三个概念的边界必须分清。

如果只能记住一句话，就记住：

不想让页面被抓，不等于不想让页面被索引；不想让页面参与排名，也不等于应该把它 canonical 到别的页。

一、三者分别控制什么

robots.txt：控制爬虫访问路径

robots.txt 的作用是告诉爬虫：

哪些路径可以抓，哪些路径不要抓。

它属于抓取层控制。

但它不保证：

这个 URL 一定不会出现在索引里

因为如果页面已经被其他地方链接、被历史抓取过，或者有其他信号，搜索引擎仍可能保留 URL 级别的信息。

noindex：控制索引资格

noindex 的作用是告诉搜索引擎：

这个页面即使抓到了，也不要纳入搜索索引结果里。

它属于索引层控制。

前提是：

搜索引擎得先能抓到这个 noindex 信号

所以一个经典误区就是：

又 robots 拦掉，又想让搜索引擎读取 noindex

如果页面被完全禁止抓取，搜索引擎就可能根本读不到 noindex。

canonical：控制重复页面中的主版本

canonical 的作用是告诉搜索引擎：

这几个内容相近或重复的 URL 里，优先把哪个当主页面。

它属于规范化与合并信号。

它不等于：

把一个毫不相关的页面“重定向思维”地指向另一个页面

只有在内容相似、结构合理、语义接近时，canonical 才适合使用。

一、三者分别控制什么配图

二、什么时候该用 robots.txt

适用场景

robots.txt 适合控制：

后台路径
登录路径
站内搜索结果页
某些明显无 SEO 价值的筛选组合
临时性系统路径
爬虫不需要反复访问的技术性路径

例如：

User-agent: *
Disallow: /admin/
Disallow: /login/
Disallow: /search/
Disallow: /cart/

这段配置解决的问题是：

避免后台、登录、购物车、站内搜索结果浪费抓取资源
减少无业务价值页面进入抓取队列

不适合的场景

robots.txt 不适合拿来做这些事：

想彻底让某页从 Google 消失
想表达“这个页面别索引”
想合并重复页面

例如你想让某个测试页彻底不进入索引，如果只写：

Disallow: /test-page/

并不能稳定达到“完全不索引”的目标。

常见错误写法

User-agent: *
Disallow: /

这段写法会直接把整站都拦住，生产环境里如果误发，非常危险。

实务建议

robots.txt 先控制“抓取预算”和“路径边界”
不要把它当成一切页面可见性问题的统一开关
改动后一定要检查：你是不是误伤了核心分类页、产品页、文档页或图片资源

三、什么时候该用 noindex

适用场景

noindex 适合这些页面：

低价值搜索结果页
站内过滤后的临时页
重复但又必须对用户开放的页面
隐私、条款、某些系统提示页
不想参与搜索但仍需可访问的页

最常见写法是 HTML 里的：

<meta name="robots" content="noindex, follow">

这段代码解决的问题是：

页面可抓取
页面内链仍可被跟踪
但页面本身不进入索引

什么时候可以用 X-Robots-Tag

如果不是 HTML 页面，例如 PDF、CSV、某些资源文件，可以用响应头：

X-Robots-Tag: noindex

这段配置解决的问题是：

对非 HTML 内容下发 noindex 信号
不依赖页面内 <meta> 标签

常见错误

错误组合：

robots.txt 禁止抓取
+ 页面里写 noindex

这样做的问题是：

爬虫可能根本拿不到页面内容，也就读不到 noindex

所以如果你的目标真的是“不索引”，常见更稳的方式是：

允许抓取
+ 返回 noindex

代码示例

<head>
  <meta name="robots" content="noindex, follow">
  <title>站内搜索结果</title>
</head>

适合：

站内搜索页
某些低价值筛选页
不想让用户从 Google 直接进来的功能页

四、什么时候该用 canonical

适用场景

canonical 适合：

参数页和主页面内容高度接近
同一内容有多个 URL 版本
分析/跟踪参数造成重复 URL
产品轻微变体页内容高度一致
同一篇内容在不同路径下重复出现

最常见写法：

<link rel="canonical" href="https://example.com/category/seo-guide" />

这段代码解决的问题是：

向搜索引擎表达“这一组重复页里，主页面是哪个”
减少参数页、追踪页、复制页造成的重复信号分散

什么时候不要乱用

canonical 不适合：

完全不同主题的页面
只是想“把权重导给另一个高权重页”
类目页硬 canonical 到首页
多个强差异产品页都 canonical 到某一个产品页

这种误用会让搜索引擎收到矛盾信号，甚至导致真正该排名的页面失去资格。

代码示例

<head>
  <title>SEO 教程 - 带参数版本</title>
  <link rel="canonical" href="https://example.com/seo-tutorial" />
</head>

适合：

?utm_source= 之类追踪参数版本
排序参数不改变核心内容时的重复页

实务提醒

canonical 是提示信号，不是强制命令。

所以前提仍然要尽量保证：

内容相似
主版本明确
内链一致
sitemap 优先提交主版本

四、什么时候该用 canonical 配图

五、三者怎么组合才合理

场景 1：站内搜索结果页

目标：

不希望进入索引，但页面仍可被访问

推荐：

页面不必写进 sitemap
页面可抓取
页面加 noindex, follow

不推荐：

直接 robots 禁掉后又想靠 noindex 清理索引

场景 2：电商筛选页

目标：

保留少数有搜索价值的筛选页，避免大量组合 URL 浪费抓取预算

推荐：

高价值筛选页可开放抓取和索引
大量低价值组合页可控制抓取或 noindex
内容近似的参数页可 canonical 到主分类页

这里不能一刀切。

如果你不确定哪些页值得保留，可以先用 ROI 决策工作台评估页面价值，再决定哪些模板值得做技术维护。

场景 3：带追踪参数的内容页

目标：

不同 URL 不要分散信号

推荐：

canonical 指向主 URL
不需要用 noindex 清理每个参数页
内链和 sitemap 只提交主版本

场景 4：测试环境或临时页

目标：

不让测试内容污染搜索结果

推荐：

最好直接权限隔离，不让外部访问
如果线上可访问，至少要明确 noindex
重要情况下再辅以 robots 控制

五、三者怎么组合才合理配图

六、不同网站类型怎么用

电商网站

重点是：

分类页 / 筛选页 / 参数页
产品变体页
排序页
搜索结果页

电商最容易出问题的地方不是“没有 canonical”，而是：

canonical 乱指
筛选页全放开
站内搜索页被抓取

SaaS / 工具站

重点是：

文档页重复
模板页参数化
公开页与登录后页边界
功能页与营销页重复

SaaS 站点要特别小心：

同一内容被营销页、帮助页、功能页重复讲了一遍

B2B 网站

重点是：

PDF 与 HTML 页面重复
多语言 / 多区域版本
案例页、产品页、行业页之间关系不清

内容站

重点是：

标签页
作者页
日期归档页
重复专题页
分页页

内容站很容易因为标签、归档、分页处理不好，导致大量低价值页进入索引。

七、上线前检查清单

1. 先问目标

你是想控制抓取？
还是想控制索引？
还是想规范重复 URL？

2. 再选手段

控抓取：robots.txt
控索引：noindex
规范主版本：canonical

3. 再查冲突

有没有 robots 和 noindex 互相打架？
有没有 canonical 指向无关页面？
sitemap 有没有提交错误版本？
内链是不是还在大量导向非主版本？

八、代码示例汇总

robots.txt 示例

User-agent: *
Disallow: /admin/
Disallow: /login/
Disallow: /search/

作用：控制无价值路径被抓取。

noindex 示例

<meta name="robots" content="noindex, follow">

作用：允许抓取，但页面不进索引。

canonical 示例

<link rel="canonical" href="https://example.com/seo-tutorial" />

作用：把相近重复版本合并到主 URL。

九、结论：先搞清目标，再决定拦什么、放什么、并什么

如果只能记住一句话，就记住：

robots.txt 不是 noindex，noindex 不是 canonical，三者不能互相替代。

真正成熟的技术 SEO 不是“把不喜欢的页面都拦掉”，而是：

该抓的让它抓
该进索引的让它进
该合并的正确合并
该清理的用合适方式清理

下一课我们继续：

[《JavaScript SEO：搜索引擎到底能看到什么》](https://seosemtool.com/blog/seo-tutorial/javascript-seo-what-search-engines-can-see)

← 上一篇

结构化数据 Schema 教程：先选型，再上 FAQ、Product、Article、Breadcrumb

本页目录

先给结论：robots.txt、noindex、canonical 解决的是三个完全不同的问题一、三者分别控制什么 robots.txt：控制爬虫访问路径 noindex：控制索引资格 canonical：控制重复页面中的主版本二、什么时候该用 robots.txt 适用场景不适合的场景常见错误写法实务建议三、什么时候该用 noindex 适用场景什么时候可以用 X-Robots-Tag 常见错误代码示例四、什么时候该用 canonical 适用场景什么时候不要乱用代码示例实务提醒五、三者怎么组合才合理场景 1：站内搜索结果页场景 2：电商筛选页场景 3：带追踪参数的内容页场景 4：测试环境或临时页六、不同网站类型怎么用电商网站 SaaS / 工具站 B2B 网站内容站七、上线前检查清单 1. 先问目标 2. 再选手段 3. 再查冲突八、代码示例汇总 robots.txt 示例 noindex 示例 canonical 示例九、结论：先搞清目标，再决定拦什么、放什么、并什么

导出获客清单

robots.txt、noindex、canonical 教程：什么时候该拦，什么时候该放

robots.txt、noindex、canonical 教程：什么时候该拦，什么时候该放

先给结论：robots.txt、noindex、canonical 解决的是三个完全不同的问题

一、三者分别控制什么

robots.txt：控制爬虫访问路径

noindex：控制索引资格

canonical：控制重复页面中的主版本

二、什么时候该用 robots.txt

适用场景

不适合的场景

常见错误写法

实务建议

三、什么时候该用 noindex

适用场景

什么时候可以用 X-Robots-Tag

常见错误

代码示例

四、什么时候该用 canonical

适用场景

什么时候不要乱用

代码示例

实务提醒

五、三者怎么组合才合理

场景 1：站内搜索结果页

场景 2：电商筛选页

场景 3：带追踪参数的内容页

场景 4：测试环境或临时页

六、不同网站类型怎么用

电商网站

SaaS / 工具站

B2B 网站

内容站

七、上线前检查清单

1. 先问目标

2. 再选手段

3. 再查冲突

八、代码示例汇总

robots.txt 示例

noindex 示例

canonical 示例

九、结论：先搞清目标，再决定拦什么、放什么、并什么

结构化数据 Schema 教程：先选型，再上 FAQ、Product、Article、Breadcrumb

JavaScript SEO：搜索引擎到底能看到什么

本页目录