我构建了这个新的 GitHub 模板存储库,为下周在NICAR (数据新闻会议)举办的关于尖端网络抓取技术的研讨会做准备。
我将讨论的主题之一是Git 抓取– 创建一个 GitHub 存储库,该存储库使用计划的 GitHub Actions 工作流程来获取网站和数据源的副本,并使用 Git 存储随时间变化的更改。
此模板存储库旨在成为开始使用新的 Git 抓取工具的最快方式:只需从模板创建一个新存储库,并将要抓取的 URL 粘贴到描述字段中,该存储库将使用抓取并存储该 URL 的自定义脚本进行初始化。
它是根据我之前的shot-scraper-template工具建模的,我在即时创建 GitHub 存储库以获取网页屏幕截图中详细描述了该工具。
新的git-scraper-template
存储库在 Claude 的帮助下才得以解决。它使用自定义脚本下载提供的 URL,并根据 URL 和内容类型派生要使用的文件名,内容类型是使用file --mime-type -b "$file_path"
针对下载的文件检测到的。
它还检测下载的内容是否为 JSON,如果是,则使用jq
漂亮地打印它 – 我发现这是在内容更改时生成更有用的差异的快速方法。
标签: github-actions 、 nicar 、项目、 git-scraping 、数据新闻、 git 、 github 、抓取
原文: https://simonwillison.net/2025/Feb/26/git-scraper-template/#atom-everything