在过去的几周里,我一直将 Datasette 和 LLM 结合在一起,并用一种与实时流媒体实验交叉的新型播客来分散自己的注意力。
项目:采访人们的项目
我对最近美国大选的反应是强调编码,然后强调播客。选举后的第二天早上,我开始了一个名为“项目”的视频系列(我想你可以称之为“视频博客”?),我在其中采访人们有关他们有趣的数据项目。第一集是拉吉夫·辛克莱 (Rajiv Sinclair) 谈论他的项目VERDAD ,该项目追踪美国广播电台的错误信息。第二次是与 Philip James谈论 Civic Band ,他的项目是从美国地方政府中抓取和搜索 PDF 会议记录和议程。
我也是另一个类似播客的节目的嘉宾:与 Benj Edwards 一起举办的 Ars Technica Live 课程,我在Bing Chat 的笔记——我们第一次遇到操控性人工智能中写到了这一内容。
数据集公共办公时间
我还与 Alex Garcia 一起发起了一项名为Datasette Public Office Hours的新活动,我们计划大约每两周运行一次,作为周五关于 Datasette 和相关项目的直播对话。我在使用 Datasette、Observable 和 MapLibre GL 可视化地方选举结果中撰写了我们的第一场会议。 Civic Band 采访是我们第二次会议的一部分 – 我仍然需要写关于sqlite-vec 、嵌入和一些未来的 Datasette AI 功能的会议的其余部分,但您可以在 YouTube 上观看完整视频。
异步法学硕士
我需要完整地写下来,但上周末我悄悄发布了LLM 0.18 ,其中包含一个巨大的新功能:插件现在可以提供其模型的异步版本,准备与 Python 的asyncio
一起使用。我为Datasette构建了这个,它完全围绕 ASGI 构建,并且需要能够异步运行 LLM 模型以启用各种有趣的 AI 功能。
LLM 提供异步 OpenAI 模型,我还有llm-gemini 、 llm-claude-3和llm-mistral插件的版本,它们也支持异步模型。
这是文档,但简短的版本是您现在可以执行此操作:
导入LLM 型号= llm 。 get_async_model ( “claude-3.5-sonnet” ) 异步模型中的块。迅速的( “宠物鹈鹕的五个令人惊讶的名字” ): 打印(块,结束= “” ,刷新= True )
我还一直致力于向 LLM 添加令牌会计,以跟踪提示在多个不同模型中使用了多少输入和输出令牌。我有一个alpha 版本,但尚未完全稳定。
我想要它的原因是我需要它用于 Datasette 和 Datasette Cloud。我希望能够跟踪代币的使用情况,并向用户授予每日免费的代币限额,一旦用完,代币限额就会被切断。目前这是一个活跃的项目,一旦准备好发布版本,就会进行更多的讨论。
各种嵌入模型
LLM 尚未提供异步嵌入(请参阅问题 #628 ),但我发现自己正在使用一些不同的嵌入插件:
- llm-gguf现在支持以 GGUF 文件形式分发的嵌入模型。这意味着您可以将令人兴奋的小(仅 30.8MB) mxbai-embed-xsmall-v1与 LLM 结合使用。
- llm-nomic-api-embed添加了对Nomic Embed Vision模型的支持。它们的工作方式与CLIP类似,您可以将图像和文本嵌入到同一空间中,从而允许您针对图像集合对文本字符串进行相似性搜索。
博客文章
- Bing Chat 的笔记——我们第一次接触操控性人工智能
- 项目:Civic Band – 从数百个城市抓取和搜索 PDF 会议记录
- Qwen2.5-Coder-32B 是一个可以在我的 Mac 上运行的 LLM,可以很好地编码
- 使用 Datasette、Observable 和 MapLibre GL 可视化地方选举结果
- 项目:VERDAD – 使用 Gemini 1.5 跟踪无线电广播中的错误信息
- 克劳德 3.5 俳句
发布
- LLM-双子座 0.4.2 – 2024-11-22
用于访问 Google Gemini 系列模型的 LLM 插件 - llm-nomic-api-embed 0.3 – 2024-11-21
使用 Nomic API 为 LLM 创建嵌入 - llm-gguf 0.2 – 2024-11-21
使用 LLM 运行以 GGUF 文件形式分发的模型 - 法学硕士 0.19a2 – 2024-11-21
从命令行访问大型语言模型 - LLM-米斯特拉尔 0.9a0 – 2024-11-20
LLM 插件提供使用 Mistral API 访问 Mistral 模型的权限 - llm-克劳德-3 0.10a0 – 2024-11-20
用于与 Claude 3 系列模型交互的 LLM 插件 - asgi-csrf 0.11 – 2024-11-15
用于防御 CSRF 攻击的 ASGI 中间件 - sqlite-utils 3.38a0 – 2024-11-08
用于操作 SQLite 数据库的 Python CLI 实用程序和库 - asgi-proxy-lib 0.2a0 – 2024-11-06
用于通过 HTTP 代理到后端的 ASGI 函数 - llm-lambda-labs 0.1a0 – 2024-11-04
针对 lambdalabs.com 托管的 LLM 运行提示 - llm-groq-whisper 0.1a0 – 2024-11-01
使用 Groq.com Whisper API 转录音频
TIL
- 针对 GitHub 拉取请求自动运行 cog – 2024-11-06
- 使用 files-to-prompt 和 LLM 从测试生成文档– 2024-11-05
原文: https://simonwillison.net/2024/Nov/22/weeknotes/#atom-everything