|
Post by account_disabled on Dec 30, 2023 4:10:37 GMT
从而耗尽爬网预算。 但这并不意味着您不能使用多面导航。恰恰相反。但是,您必须采取措施确保爬网程序不会尝试访问导航将创建的动态 URL。 当尝试确定如何解决这个多方面的导航难题时,您可以实施一些解决方案。然而,使用哪一种在很大程度上取决于网站的哪些部分应该被索引。 无索引 可以实现“Noindex”标签来通知机器人哪些页面不包含在索引中。此方法将从索引中删除页面,但是,仍然会在这些页面上花费爬网预算,并且链接资产会被稀释。 规范化 规范标签允许您指示 Google 一组相似的页面具有该页面的首选版本。 不关注 最简单的解决方案是向这 手机号码数据 些内部链接添加“nofollow”标签。它将阻止爬网程序跟踪这些链接并尝试爬网内容。 #4。删除过时的内容 您不必物理删除这些页面。但是,阻止爬虫访问它会立即减少可爬行的 URL 数量,以释放爬行预算。 #5。阻止爬虫访问不应编制索引的 URL 通过简单地阻止爬网程序访问不需要编入索引的 URL,您可以节省大量爬网预算,避免浪费。 这些页面可能包含您的组织必须向用户提供的法律信息、标签、内容类别或其他不会为搜索者提供太多价值的资产。 最简单的方法是向这些资产添加“noindex”标签,或者添加指向您想要索引的页面的规范标签。 清理站点地图 正如我们已经讨论过的,Google 会优先考虑站点地图中的 URL,而不是在抓取网站时发现的 URL。 但不幸的是,如果没有定期更新,站点地图最终可能会被非活动 URL 或您不一定需要索引的页面堵塞。定期更新站点地图并清理那些不需要的 URL 也将释放抓取预算。 #7. 使用 Robots.txt 文件 robots.txt 文件告诉搜索引擎抓取工具可以或不可以从您的网站请求哪些页面或文件。通常,该文件用于防止抓取工具使网站请求过载,但是,它可以帮助引导 Googlebot 远离网站的某些部分,并释放抓取预算。 但要记住的一件事是,robots.txt 只是对 Googlebot 的建议 - 它并不是每次都必须绝对无条件遵循的指令。
|
|