我正在403 处理 AI 爬虫,现在正在 403 处理我认为有问题的引荐来源网址。
我们最近发现这些可疑的推荐人是社交平台,这些平台要么加入了现任政府,要么明确表示与现任政府保持一致。这种协调和参与已被清楚地证明为承认对针对少数群体和边缘化社会群体的有毒观点和帖子的节制,或积极引导国家权力限制上述群体的权利。
因此,考虑到这一点,我配置了一个新的 403 页面。我设置了一个包含记录的集合,其中包含单个string
字段(引用者为 403)和一个数据文件,以便在我的网站构建时获取它们。这些引荐来源网址(以及机器人和重写)被写入我的.htacccess
文件,该文件是从 Liquid 模板生成的。
你好!所以,这是一个403页面。用互联网术语来说,这意味着禁止,不幸的是,这意味着您无权查看您向该服务器请求的内容。
这是为什么?好吧,你可能是一个人工智能机器人,但我们不喜欢这样。或者您可能是从一个相当受欢迎的社交媒体平台转介而来,而该平台的所有者令人反感。
我知道 403 页面上的过长解释不会说服您离开该平台。您可以返回,将该 URL 复制到地址栏中,然后继续。太麻烦了?我明白了。如果您做到了这一点,我希望您至少会明白,无论谁拥有该平台,都不会为了您的最佳利益(或任何人的最大利益,除了他们自己的利益)来运营它。
被阻止的机器人总是会收到 403 错误。来自可疑(可以说是有毒)平台的访问者将会受到不便。
原文: https://coryd.dev/posts/2025/403ing-questionable-referrals