不久前,我对我的三星 S7 感到非常沮丧。它无法保持电池电量,或者 Wi-Fi 或 LTE 上的 DNS 出现问题,我达到了崩溃的临界点,我乘公共汽车去了贝尔维尤广场,买了一部 iPhone 7。这是我的第一个苹果产品自从高中时在 T-Mobile Dash 上使用 Windows Mobile 6 以来,我就用自己的钱购买了第一部非 Android 手机。
不用说,我第一眼就喜欢上了它,从那以后我所有的手机都变成了 iPhone。这款相机已经足够好了,我必须不遗余力地让我的实际相机与 iPhone 上的相机不同。哎呀,如今 iPhone 已经是一款功能齐全的电影摄影机了。这无疑是我在创意职业生涯中做过的最好的技术举措之一。该设备使我能够做事并创造记忆与他人分享。
自行车为心灵
早在 1981 年,史蒂夫·乔布斯(苹果公司联合创始人之一)就这样描述了苹果电脑的愿景:
我读到了一项测量地球上各种物种运动效率的研究。秃鹰移动一公里所用的能量最少。而且,人类的表现并不令人印象深刻,仅排在榜单的三分之一左右。 […] 但是,《科学美国人》的某人有洞察力来测试骑自行车的人的运动效率。一个骑自行车的人把秃鹰吹走了。 [计算机是]我们发明的最出色的工具,它相当于我们大脑的自行车。
—— 史蒂夫·乔布斯
苹果电脑的目标是让人们更容易发挥创造力,同时花费更少的精力。 Apple 制造 Macintosh 的一大目的就是排版。由此,他们制作了MacWrite ,这是每台 Macintosh 计算机免费附带的两个程序之一。如果您习惯于用手写文档或使用打字机来制作文档,那么向文字处理器之类的东西的飞跃是如此之大,以至于比我年轻的人都很难理解它。我们一生都拥有它们。
运行 MacWrite 的模拟 Macintosh 的屏幕截图,其中包含《蜜蜂电影》脚本的第一段。
想象一下,当您编写某些内容时无法可靠地使用退格键。想象一个你所能做的只是写更多文字的世界。当然,有很多方法可以“掩盖”输入错误的字母,但它们比直接忽略它或重新输入单词并用手划掉错误的字母要麻烦得多。
文字处理器允许您使用退格键删除文本,然后查看屏幕以获得打印文档外观的合理近似值。在打印之前。
说这能够实现一种截然不同的创作过程,就像说水使物体变得潮湿一样。像 MacWrite 这样的文字处理器彻底改变了每个人使用计算机的方式。它们是心灵的自行车,没有它们,我们的世界将会截然不同。我不寒而栗地想象NaNoWriMo会是一个没有文字处理器的东西。
许多公司希望制造出可以用来做计算机事情的计算机。苹果公司生产的工具可以作为身体的延伸,让你可以做一些有创意的事情。他们不只是销售计算机,他们销售的东西可以帮助您创造出恰好是计算机的东西。
这就是苹果在同类产品中的巨大视觉差异。他们卖自行车是为了心灵。
智慧如水龙头
2024 年 6 月,Apple 宣布推出Apple Intelligence :一系列旨在让您的智能手机变得智能的功能。对我来说最突出的事情是 Apple Intelligence 将在 Siri 中实现的功能的示例:
Apple Keynote 幻灯片上写着“播放我妻子前几天发送的播客”。
如果它们真的能够关联关系、对链接进行分类,并使所有上下文对 Siri 可见,那么对于以前没有文字处理程序的人来说,这将带来根本性的变革。用它做的其他事情都会额外增加奖金或派对技巧。真正的好处是能够通过简单的查询在每个应用程序中搜索您的所有数字生活,然后让您的手机为您做一些事情。
当然,克雷格的例子是播放播客,但基本思想也适用于其他类型的媒体。 “将旧金山的这些照片分享到 Instagram。”所有这些正在建立的背景最终将对用户有用,而不仅仅是对制作我们使用的所有应用程序的公司有用。
他们希望让所有 Apple 设备都能够像水龙头一样利用智能,就像 Spotify 让您像水龙头一样利用音乐以及 AWS API 让您像水龙头一样利用计算一样。这是一个巨大的成果,如果成功的话,三星和谷歌等公司将像克隆 iPhone 的硬件和软件设计一样克隆新标准。
在那次主题演讲中,他们提出了这样的愿景:计算机应该与你一起工作,以便你做你想做的事情。它们应该使您能够发挥创造力。它们应该是心灵的自行车。它们是计算机的事实应该只是标题为“实现细节”的附录中的脚注。
然后他们随意地放弃了可信计算的圣杯,但为了理解为什么它如此之大,我们需要绕道了解现代互联网用户对互联网的看法。
应用程序像接待处一样薄
现代应用程序的最大问题之一是它们是 Web 服务的薄壳。当您打开 Instagram 或 Bluesky 应用程序时,您的手机会向其服务器发出请求,然后在收到响应时向您显示帖子。您不知道也不关心这些响应是如何做出的,您只知道当您打开应用程序时,您会获得内容并且这会让您感到高兴。
但是,当您没有信号时,您就没有该应用程序。坐上飞机,一旦信号耗尽,该应用程序就毫无价值了。当您恢复信号时,您无法将要发布的帖子排队。您无法查看失去连接之前可用的帖子。在某些情况下,您甚至无法查看刚刚发布的内容。该应用程序崩溃了,你会慢慢地与你的数据疏远,一次一张照片。
这就是我手机上几乎所有应用程序的工作方式,只有两个例外:Signal 和 Apple 制作的所有应用程序。如果您想了解更多有关现代用户的互联网体验的信息,请查看 Ed Zitron 的《永不宽恕他们》 。
由于我们使用的每个平台都迫切希望促进每个用户的增长,因此我们与之交互的所有内容都通过插件、广告、微交易和其他不断影响用户体验的事物来实现超货币化。我们加载网站时预计它们会被破坏,尤其是在移动设备上,因为每个网站都必须有 15 个以上不同的广告跟踪器、覆盖大块屏幕的视频广告,同时要求我们提供电子邮件或让他们向我们发送通知。
——艾德·齐特伦
更不用说,您不知道为您的应用程序提供支持的服务如何工作。整个市场不想为聊天程序或社交媒体付费。运行聊天程序和社交媒体应用程序的成本高得令人难以置信。风险投资的持续时间有限,参与其中的公司必须以某种方式赚钱。为了盈利,大量的用户数据开始看起来是一个非常值得挖掘的好东西。
可信计算的圣杯
这与 Apple Intelligence 等公司的目标形成鲜明对比。如果可能,Apple Intelligence 将在您的设备上运行。 Apple竭尽全力让您可以轻松地在设备上运行大型语言模型和其他人工智能模型,而无需在此过程中做出太多妥协。如果在您的设备上(或者至少在您可以查看的硬件上完成某些操作,例如办公室中的 Mac mini),那么计算比涉及向外界发出请求的任何操作都更加私密。
在苹果的 WWDC 主题演讲中,他们声称他们有一个名为私有云计算的系统,该系统使用户在通过网络发出请求时能够获得与在本地设备上运行的计算相同(或更多)的隐私保证。
这对我来说似乎是不可能的。根据我对网络服务香肠如何制作的了解,似乎不可能同时拥有所有这些保证:
- 用户数据仅用于满足请求,然后被删除。
- 负载平衡基础设施不知道谁在发出请求以及该请求将发送到哪台服务器。
- 研究人员能够检查和验证私有云计算系统并在笔记本电脑上进行模拟。
- Apple 站点可靠性工作人员没有访问私有云计算节点的特权,并且日志记录在编译器级别被最小化。
- 攻击者无法可靠地找出哪个节点正在用于向任何用户发出任何请求。
如果您有一点站点可靠性经验,这似乎是一组无法满足的约束。这看起来实际上是不可能的,但他们在这里声称他们已经做到了。
他们如何实现这一目标的技术细节非常值得一读,因为这是我第一次看到任何公司的人工智能产品团队整合一个令人信服的安全模型并向公众发布该安全模型。长话短说:
- 他们在组装过程的每一步对硬件进行 X 射线检查,并将其与参考图像进行比较,以应对工厂工人在服务器主板上添加未经批准的硬件的威胁。
- 您可以设置自己的私有云计算节点的本地副本,并用您想要的所有地狱之火惩罚它,看看是否可以破坏它并获得root权限。如果可以的话,苹果会付给你很多钱。
- 硬件认证过程涉及苹果公司无关部门的很多无关人员。
- 每个私有云计算节点不仅会在断电时自行取消认证,还会将主板的主电源连接到机箱防盗开关。打开服务器?电源被切断,节点被取消认证。
- 每次您的设备向私有云计算发出请求时,它们都会记录用于完成该请求的节点 ID,您可以进入并验证您的设备使用的所有节点是否仍然经过认证。
- 生产操作系统映像可供公众免费下载,并且不以任何方式加密。
- 构成操作系统重要部分的每个包都分为两种类型:代码和数据。您不能将代码混合到数据包中,反之亦然。
与大多数其他人工智能产品的运行方式相比,这简直是疯狂。大多数时候,人工智能产品运行在您在某处获得的某些 GPU 上,这些 GPU 运行您可能尚未测试或验证的某些固件(即使每个有权访问 GPU 的人都可以通过软件刷新固件),并使用 bog-standard ngnix 或其他选择将您的请求路由到某个地方运行的服务的东西,但没有任何真正的保证该服务不会记录和存储您放入其中的所有内容。从用户隐私的角度来看,这与使用 Instagram 基本相同。您假设所有内容都被记录并用于以某种方式赚钱。
苹果公司对此表示强烈反对,并表示“不,我们不会那样做”,然后用代码和详细文档来支持这一切,说明他们是如何实现这一切的。他们还在GitHub 上公开发布了私有云计算的安全关键部分的源代码。
这是远程验证可信计算的圣杯。这种操作系统正是理查德·斯托曼(Richard Stallman)在《阅读的权利》中警告的那种东西。你无法在那里扎根。你没有得到编译器。你没有得到调试器。除了运行操作系统映像附带的软件的能力之外,您什么也得不到。如果这个操作系统被交付给消费者,你将拥有一个几乎无法破解的系统,这使得它基本上不可能被修改。在电话诈骗老年人的时代,你想要这样的东西有很多原因,但这会让像我这样的人很难发展起来。
然而,对于像私有云计算这样的东西来说,它是完美的匹配。计算机能做的所有事情都是预先知道的,不允许发生任何其他事情。这使得确保隐私保证变得更加容易:保证。
令人沮丧的是,这种可信计算的基础正在被浪费。我希望我有一个像私有云计算这样的操作系统作为构建生产系统的选项。
我们得到了什么
我们在 2024 年 10 月底获得了第一批 Apple Intelligence 功能。它们已经被宣传得好像已经全部上市了。这样,我们就有了写作工具来帮助您总结和重写文本;通知、网页和电子邮件的摘要;如果您想从照片中删除某些内容,请进行清理;根据照片内容搜索照片的能力; Siri 能够搜索您设备的文档;和数学笔记,让您可以在笔记应用程序中解方程。后来我们有了 Image Playground 和电子邮件分类。这种神秘的个人背景在广告中无处不在,但不知何故,它还没有推出。
在广泛使用了这些功能之后,我将在各自的小部分中分解我对这些功能的感受。
数学笔记
首先我想说的是,在所有这些功能中,我最喜欢的是数学笔记。天哪,数学笔记太不可思议了。它可以让你输入如下内容:
Rent = 2300 FamilySize = 2 Rent / FamilySize =
然后 Notes 应用程序将在最后一个等号后插入1150
。太棒了。我最终用它来进行基本的变量计算,包括对我赚多少钱与花多少钱的糟糕估计。这可能是苹果设备有史以来最好的功能之一。
我对数学笔记的抱怨为零。
书写工具
我不是写作工具的目标受众。我在博客上写了很多文章,坦率地说,我实际上并不需要人工智能模型的帮助才能写作;不写作比写作更让我烦恼。考虑到这一点,写作工具对我来说基本上没什么用。这只是我已经有能力让自己变得更好的一个稍微更糟糕的版本的一种方法。
使用写作工具让我感受到现有人工智能工具最严重的副作用,以及它们如何取代而不是增加创意过程。当我通过写作工具输入文本时,我得到了一个不透明的答案。除了“让这个专业”或“把它变成一个表格”之外,我不会对答案或可操纵性进行分层,我只是得到一堆读起来很痛苦的文本。
例如,我要求写作工具总结最后一段,这就是我得到的:
Apple Notes 中前一段的模式对话框,标题为“书写工具不可用:某些功能目前不可用”。稍后再试。
你无法弥补这一点。我要求它变得更友好,我得到了这个:
使用书写工具有一些严重的缺点。感觉它正在剥夺而不是增强创意过程。当我在写作工具中输入文本时,我得到的是缺乏深度和自定义选项的通用响应。这就像得到一个一刀切的答案,很难遵循并且不允许太多创造力。
它对于将我在直播中所做的一堆咆哮并将其转化为我可以用来作为写作起点的大纲可能很有用,但它对我的写作工作却很糟糕。我想对于其他没有丰富英语经验的人来说,它会更有用,但我不知道它对我来说有多有用。
通知、消息和电子邮件摘要
这是最大的功能,在您实际实现之前,它听起来像是一个好主意。其核心思想是,当您从应用程序收到大量通知时,您会遇到一堆可能很乏味的事情。摘要更容易理解,也更容易理解要点。
这非常有效,直到不起作用为止。以下是我在撰写本文时收到的诈骗短信的摘要:
这句话的字面意思是诈骗信息,让我觉得需要立即采取行动。您可以看到这无法扩展,对吧?新闻已经报道了通知摘要如何让人们认为一名在押嫌疑人自杀了。
更重要的是,如果您为某些其他功能启用了 Apple Intelligence,但由于发现它们毫无价值而禁用通知摘要,则您的通知可能会延迟最多五秒。告诉计算机少做工作比多做工作要花更长的时间才能得到结果,这有点令人沮丧。
此外,所有摘要功能在我的 iPhone 上都不起作用,我懒得去找出原因并修复它。我个人认为它们没有用。我只是在 MacBook 上启用它们,这样通知发送就不会受到影响。
尽管它有不错的“苹果润色”,但不知何故感觉还是半生不熟。就好像事情还没有完成一样,但他们被迫只运送他们拥有的任何东西,以便满足不了解细节的人随意设定的最后期限。不过,这种情况似乎在整个行业都在发生,尤其是当公司试图从赚钱者身上榨取更多钱时。
清理
从哲学的角度来看,我不喜欢清理。我是一名摄影师。当我构图并拍摄时,我希望来自传感器的数据成为构成图像的数据。我想避免尽可能多的处理,我希望照片能够反映现实的本来面目,而不是应有的现实。当然,有时我会在后期进行一些色彩校正或裁剪,但这不会改变图像的内容,只会改变其呈现方式。
这个著名的照片编辑示例可以最好地解释清理:
苏联前总理约瑟夫·斯大林和尼古拉·叶若夫在被清洗后被从苏联历史中删除前后的照片。
该工具可让您捕捉到您希望发生的时刻,而不是实际发生的时刻。从哲学的角度来看,我不喜欢这样。我更愿意捕捉事物本来的样子。因此,我没有使用过 Clean Up,也无法对其进行更多讨论。
图像游乐场
我对 Image Playground 有很多想法。我已经使用了很多图像生成模型,目前正在研究生成人工智能中的传达(传达需要很多文字才能解释的感觉或情绪的图像)的实验。这是我的成功例子之一:
一张棕色头发的动漫女人在盛开的粉红色花朵中微笑的照片,景深很深,因此只有女人和几朵花成为焦点。使用 Stable Diffusion 1.5 和 ComfyUI 制成。
我使用 2022 年底开始的稳定扩散 1.5 微调在复杂扩散流中使用了大约 11 到 12 个模型的堆栈来完成此操作。我们将其称为从该时代技术获得输出的上限。有一些明显的缺陷(主要涉及围栏的连续性,但这可以用围栏施工方法来解释)。
相比之下,这是我在 Image Playground 中拍摄的东柏林电视塔日落时的几代作品:
这也相当不错,天空一半是正午,一半是日落,窗户/甲板有很多直线问题,但乍一看基本上还可以。尤其是在手机屏幕上。由于我对人工智能工具的丰富经验,我能够看到更多的缺陷,但在紧要关头,你可能不会对此视而不见。
我不愿意承认这是经过精心挑选的。大多数时候,你会遇到这样的超出凡人理解的恐怖:
AI 生成的插图,展示了在聚会上吸着啤酒的炸玉米饼。炸玉米饼有蹄子作为脚和手。它采用了一种平静的企业艺术风格,没有任何沟通。
这太可怕了。我什至不知道从哪里开始谈论这张图片的所有不妥或错误的地方。我也不认为您需要特殊的培训或经验来理解此图像的问题所在。
请注意,这两个图像都是使用纯文本提示生成的。您可以将人物添加到这些图像中。使用自己的照片是体验畸形的好方法。这是科里·奎因 (Corey Quinn)做出他典型的小妖精微笑的照片:
AI 生成的男人微笑的插图。比例令人不安。那双毫无灵魂的眼睛凝视着你,让你思考人工智能图像生成的努力去了哪里,以及这些金钱和努力可以为人类带来什么好处。他的瞳孔像他的牙齿一样呈方形。
我不敢相信这是苹果公司发货的产品。我真的很震惊。那边到底发生了什么?
这是来自拒绝运送这么多我们永远不会听说的东西的公司。这是来自定义基于视觉的产品理念的公司。他们拥有如此强烈的产品愿景,以至于他们愿意指责人们错误地持有设备,而不是承认他们搞砸了。
我觉得 Image Playground(以及 Genmoji,这里没有讨论它,因为很难从聊天消息中提取表情符号而不损失质量)创建的结果同样没有灵魂和空洞。这与我多年来对苹果公司的关怀和质量水平完全相反。就好像他们因为投资者的压力或者不想落后于形势而被迫交付一些东西;产品团队中没有人能够阻止它进入市场。
现在,每家公司都会用开放权重模型来复制这一点,并制作出看起来不像可怕怪物的东西。当你在 iPhone 上感受到厄运的 oompa-loompas 直视你的灵魂时,业界的其他公司将能够做出这样的事情:
日落时柏林电视塔的卡通插图。随着暮色的降临,天空呈现出多种金色和红色的色调。
真令人沮丧。如果有一个 IntelligenceKit 供开发人员利用模型或其他东西进行创意就更好了,但目前还没有。这一切都感觉不成熟,就像他们出于对股东的义务而被迫发布它,而不是出于满足产品愿景的选择。
生成式人工智能不是一种产品
九月份的时候,我做了一个奇怪的梦。如果你足够了解我,你就会知道,当我做“奇怪的梦”时,通常意味着发生了一些疯狂的事情。在这个梦中,我与史蒂夫·乔布斯谈论了产品设计、苹果公司让人们发挥创造力的哲学,但我们讨论的最突出的一点是:
技术改变生活的真正方式是充当思想的自行车,一种利用人类潜在创造力并让他们集中精力并将其运用到让生活变得更美好的事物中的方法。想象一下,拿起一把吉他,通过纯粹地感受音符并根据感觉“正确”的内容将其加工成旋律来创作一首歌。根据您的描述,大多数生成式人工智能对此毫无用处,因为它消除了从 A 到 B 时的所有创意控制。
如果说有什么不同的话,那就是人力成本似乎超过了能够更快地在月球上画一只猫所带来的任何过程收益。生成式人工智能作为一个产品本身是完全无用的,但可以以某种方式成为更大产品的一部分。它永远不应该成为卖点。
——梦中的“史蒂夫·乔布斯”,2024 年 9 月
拆开这个问题,能够在一两秒内制作出柏林电视塔的糟糕插图,对我们的创造力有何真正的帮助?您将得到一个最终输出。您无法使用图层来编辑天空的颜色分级等内容。当然,它对于轻松的社交媒体帖子很有用,但这不是一个产品。这是一个技术演示,甚至不是一个好的演示。如果这是 3 年前发布的,那就太神奇了,但现在是 2025 年,而不是 2022 年。
如果生成式人工智能不是产品,那么它真正有用的是什么?我知道如何在创意流程中使用它,因为我已经接受了成为一名艺术家所需的培训。我知道如何在研究环境中使用它,因为我有多年将科学扔到墙上看看什么能粘住的经验。我了解这些工具以及它们的优点和缺点(这就是为什么我付出努力的所有人工智能插图最终都以动漫为灵感的艺术风格,因为以逼真的方式再现人类十分之七会让你变成非人怪物)。
我认为最好将生成式人工智能视为实施细节,而不是产品的关键身份。了解产品的最好方法之一就是开始把东西拿走。如果你把文字处理器中的颜色去掉,你仍然拥有一个文字处理器。如果您从文字处理程序中取消粗体或斜体格式,您仍然拥有文字处理程序。如果您从文字处理程序中取消字体选择,您仍然拥有文字处理程序。
如果去掉文字处理器的显示输出,那么您拥有的是打字机而不是文字处理器。因此,文字处理器的核心是能够在打印之前在屏幕上看到您在页面上看到的内容。
ChatGPT 作为产品的核心并不是人工智能。这是一种由人工智能一次输入一个单词并保存您与人工智能的对话供以后使用的体验。
我们应该在哪里使用生成式人工智能?
就我认为生成式人工智能实际上有用的地方而言,它是在那些不那么华而不实或令人兴奋的地方。想想数据分析、定性数据编码、数据输入、从图像中读取数据以及类似性质的事情。我一直在与一位 Reddit 网友合作进行一项研究,涉及人们的冥想体验以及难以描述的感觉。我们希望使用生成式人工智能来尝试对这些感觉进行分类,看看我们是否能够获得有效的结果,而无需像手工那样做那么多苦差事。
到六月我会得到更多关于此事的消息。它将涉及在实际期刊上发表一两篇论文。
结论
我认为从实施的角度来看,Apple Intelligence 是一个失败的产品。这令人沮丧,因为他们所建立的基础几乎是无敌的。所有数据都尽可能在设备上进行处理。所有无法在您的设备上处理的内容都会被纳入前沿级安全实践中,以确保其尽可能私密和加密。
糟糕的是,他们创造了远程验证可信计算的圣杯,然后使最终结果变得比在同一设备上手动与Ollama进行集成更糟糕。使用 Ollama,您可以选择比使用 Apple Intelligence 获得的模型好得多的模型。而且它同样是私密的。
我只是忍不住想象它会是什么样子。我知道我们的苹果永远不会这样做,但我就是忍不住想知道。苹果花费了无数的钱试图创造东西,但他们却被一群拿着废品和消费级 GPU 的人在山洞里打败了。
不用说,他们并没有给我们心灵的自行车。他们给我们带来了一些微小的改进,感觉就像是技术演示。潜力是如此无限,但感觉一切都被浪费了。
除了数学笔记。碉堡了。我非常喜欢数学笔记。我希望其他笔记应用程序也有它。这无疑是他们想出的最好的功能。
我对这一切有很多复杂而微妙的想法,可能还剩下 5-10k 字。祝我好运。
我在 Twitch 上现场写了这篇文章,请在美国东部时间周五中午来找我,看看更多科技直播的精彩内容!