YouTube 上的 datasette-scraper 演练
datasette-scraper 是 Colin Dellow 的新插件,它将 Datasette 变成一个强大的网络抓取工具,具有基于插件驱动的自定义数据集界面的 Web UI。它真的令人印象深刻,这个十分钟的演示展示了它的能力:它可以抓取站点地图和获取页面,缓存它们(使用 zstandard 和可选的自定义词典进行额外压缩)以加快后续抓取……你可以添加您自己的插件以从爬取的页面中提取结构化数据并将其保存到单独的 SQLite 表中!
原文: http://simonwillison.net/2023/Jan/29/datasette-scraper-walkthrough/#atom-everything