Foursquare Open Source Places:地理空间社区的新基础数据集
我没想到这个!
[…] 我们今天宣布基础开放数据集 Foursquare Open Source Places(“FSQ OS Places”)全面可用。这个 100 毫米以上全球名胜古迹 (“POI”) 的基础层包括 22 个核心属性(请参阅此处的架构),这些属性将每月更新一次,并可在 Apache 2.0 许可框架下用于商业用途。
数据以托管在 Amazon S3 上的Parquet 文件形式提供。
以下是列出可用文件的方法:
aws s3 ls s3://fsq-os-places-us-east-1/release/dt=2024-11-19/places/parquet/
我通过places-00000.snappy.parquet
取回places-00024.snappy.parquet
,每个文件大约455MB,总共10.6GB数据。
我运行了duckdb
,然后使用 DuckDB 的远程查询 S3 上的 Parquet 的功能来进一步探索数据,而无需先将其下载到我的笔记本电脑上:
select count(*) from 's3://fsq-os-places-us-east-1/release/dt=2024-11-19/places/parquet/places-00000.snappy.parquet';
返回 4,180,424 – 每个文件的数字相似,表明总共大约有 104,000,000 条记录。
我运行此查询以从第一个文件中以换行符分隔的 JSON 形式检索 1,000 个位置:
copy ( select * from 's3://fsq-os-places-us-east-1/release/dt=2024-11-19/places/parquet/places-00000.snappy.parquet' limit 1000 ) to '/tmp/places.json';
这是places.json 文件,它被导入到Datasette Lite 中。
最后,我使用 ChatGPT Code Interpreter将该文件转换为 GeoJSON并将结果粘贴到此 Gist 中,从而为我提供了这千个地点的地图(因为 Gists 自动渲染 GeoJSON):
通过安迪·拜奥
标签:开源、 GIS 、 foursquare 、 datasette-lite 、 parquet 、 duckdb 、代码解释器、人工智能辅助编程、 geojson
原文: https://simonwillison.net/2024/Nov/20/foursquare-open-source-places/#atom-everything