我在构建东西和编写代码方面度过了一些缓慢的两周,这主要归功于几次会议的出现。不过,我确实对 Datasette 进行了审查并做出了一些重大贡献。
我在 PyBay 2023 上发表了题为“嵌入:它们是什么以及它们为何重要”的演讲,深入探讨了词嵌入的奇怪而有趣的世界(请参阅之前的帖子)。明天我将发布该演讲的详细笔记。
几天后,我在人工智能工程师峰会上发表了闭幕主题演讲,我试图公正地阐述峰会和前一年人工智能的发展——这是一个不小的挑战!
我已经发布了详细的幻灯片和带注释的文字记录来配合该演讲:人工智能工程的开放问题。
数据集元数据
Alex Garcia一直在推动 Datasette 的重大改进,为 1.0 版本做准备:清理 Datasette 笨拙的元数据系统。
Datasette 中的元数据最初旨在支持添加有关数据的数据 – 通过 Datasette 实例公开的数据的许可证、来源和描述。
随着时间的推移,它朝着奇怪和不直观的方向发展。如今,元数据还可用于配置插件、提供表级设置、定义预设查询,甚至控制 Datasette身份验证系统的工作方式。
这个名字已经不合适了!
Alex 正在通过将元数据的所有非元数据部分拆分为一个新的单独的配置文件来解决此问题,我们同意该文件应称为datasette.json
或datasette.yaml
。
本周,我们完成了其中的一大工作:将权限、允许块、预设查询等从metadata.yaml移出并移至datasette.yaml 。
这方面还有一些工作要做:特别是,我需要升级datasette publish
命令以支持使用新配置文件部署实例。该工作完成后我将立即发布 alpha 版本。
Datasette 的 JavaScript 插件 API
本周的另一项主要贡献是由Cameron Yick撰写的。
他的Javascript 插件 API(自定义面板、带有 JS 操作的列菜单项)拉取请求已经酝酿了几个月。这是一个非常令人兴奋的新拼图。
这里的关键思想是为使用 JavaScript 修改 Datasette 界面的 Datasette 插件提供更丰富的支持。特别是,我们希望插件能够相互协作。
Cameron 的工作引入了一种 JavaScript 插件机制,该机制的灵感来自于 Python 的pluggy(已被 Datasette 使用)。它引入了一个钩子,用于将自定义面板添加到 Datasette 界面,显示在主表视图上方。多个插件可以使用同一区域,Datasette 将自动显示一个选项卡式界面,以便在它们之间进行切换。
卡梅伦还建立了一种机制,可以向现有的“cog”列操作菜单添加额外的选项。这类似于 Datasette 现有的表和数据库操作菜单挂钩,但允许使用 JavaScript 添加列功能。
我希望在下一个 Datasette alpha 版本中及时获得文档和一些在此基础上工作的示例插件。
本周发布
- 数据集-llm-嵌入 0.2 – 2023-10-08
Datasette 插件添加 llm_embed(model_id, text) SQL 函数 - 数据集 0.64.5 – 2023-10-08
用于探索和发布数据的开源多功能工具
直到本周
- 动态部署 CLIP 嵌入模型– 2023-10-18
原文: http://simonwillison.net/2023/Oct/22/weeknotes/#atom-everything