对我来说, OpenAI 的新“Operator”产品(他们的第一个真正的代理)最有趣的方面不是它能做什么,而是它是如何做的。与 Anthropic 和 Google 的类似产品的早期迭代不同,“Operator”不会接管你的计算机,而是将你想做的工作外包给 OpenAI 云端的计算机。就像当今我们许多人一样,那台计算机实际上只使用一个应用程序:网络浏览器。
它既聪明又明显。为什么你想在自己的机器上执行此操作,从而在你尝试做其他事情时将其捆绑起来 – 这不是代理的目的,让你有时间做其他事情吗? 1但这也有点奇怪:看着机器人在远处的远程计算机上执行您要求的任务。 2这有点歌舞伎剧场的味道。这很快让我意识到这一切的另一个明显因素:OpenAI 需要制作自己的网络浏览器。
我之前曾在司法部试图让谷歌分拆 Chrome 的背景下提出过这个案例。在一篇题为“忘记 Chrome 的命运,关注浏览器的命运”的文章中,我写了以下内容(认为最有可能取代 Google 搜索的是人工智能产品的某种迭代):
在当前的混乱局面中,似乎有某种东西最终会取代谷歌搜索。但这些都与 Chrome 没有任何关系,只是它们主要在 Chrome 内部运行,就像其他网络应用程序一样。向“代理”的转变可能会改变这种动态,一些早期进入者可能会专注于使用浏览器作为此类人工智能运行的中心——这可能包括 OpenAI …
好吧,仅仅几个月后,我们就到了。有趣的是,Operator 继续运行,还有什么呢?铬合金。它似乎是一个定制版本,毫无疑问比常规网络浏览器更能锁定软件,但它是 Chrome 运行的“OpenAI Operator”扩展(正如我的“接管”和点击所表明的那样)。这是有道理的开始; Chrome 是世界上最受欢迎的浏览器(这就是司法部想要将其从 Google 手中夺走的原因)。 OpenAI 必须就其他人如何使用网络的数据对操作员进行培训,大多数人都在 Chrome 上这样做。 3同样重要的是,所有网站和服务都可以在 Chrome 上运行,但并非所有浏览器都可以运行。 Chrome 就是这样。目前。
回到歌舞伎剧场,让机器为你浏览网页有点愚蠢。再说一遍,这在早期是有意义的——从信任的角度来看它在做什么(并能够判断它做错了什么)非常有用——但这并不是执行任务的最有效方式。光标是使用鼠标的视觉指示器,但为什么机器人必须使用鼠标呢?与键盘同上!机器人没有手臂!我们正在将人类的构造强加给人工智能。
打败死去的机器人:这无疑有助于我们轻松应对未来,并且目前有一些切实的好处,但这一切都有点愚蠢。
当我说 OpenAI 应该构建自己的浏览器时,我并不是专门针对你和我。我的意思是供“操作员”使用!
也就是说,如果他们这样做,那么设计时就需要考虑到主要用户(或至少是主要用户)将是人工智能,而不是人类。如果他们能够创造出一款专为两者设计的产品,那就更好了。但也许它是一个浏览器,可以根据你(人类)是否需要接管和“驾驶”来在两种模式之间切换。
我所描述的实际上与 API 的作用相去不远。在某种程度上,它们有点像计算机版本,没有以人为本的用户界面。当然,OpenAI 已经表示也会有 Operator API。这很好,它将允许 Operator 突破浏览器,但我仍然认为 OpenAI 构建一个 Web 浏览器(无疑使用其中一些 API)是他们需要做的,以便在这些早期代理中建立一个高效的人/机系统天。
如果不出意外的话,他们可能不能依赖 Chrome,因为如果 Google 将 Gemini 完全融入到他们的浏览器中,显然这会给 OpenAI 带来各种各样的问题。我认为在 Chromium 上构建它是很好的——假设该项目不会受到美国司法部要求分拆 Chrome 的影响——但它应该是一个 OpenAI 可以完全控制并为自己的目的构建的浏览器。
回到我十一月份的帖子:
我确实认为 OpenAI 拥有浏览器是有意义的。他们不应该购买 Chrome,也不应该因为讨论的所有原因而被允许购买。但他们应该像谷歌当年所做的那样,从头开始构建它,以适应他们自己对互联网未来的愿景——配备一个真正“全能”的新“多功能框” 。因此, 报告(和员工)表明他们正在开发这样的浏览器当然是有道理的。
现在,您可能会说,他们的资源最好花在开发网络浏览器之后的下一代产品上。是的,他们也应该这样做——而且看起来确实如此。但 OpenAI 网络浏览器产品现在让我想起的不是 Chrome,而是Google 当年用于 Internet Explorer 的旧工具栏。早期项目之一, 就像 Chrome 本身一样,由现任 Google 首席执行官 Sundar Pichai领导。这是他们当时在市场上立足的方式。它奏效了。
您可能会说 ChatGPT Chrome 扩展(与新的搜索产品一起相当积极地安装和实施)是 OpenAI 的版本。也许是这样。但我认为围绕 ChatGPT 定制的重新设计的浏览器将能够更好地在我们当前的技术环境中站稳脚跟。直到我们开发出人工智能可穿戴产品或其他真正的下一步产品。
想象一个新的网络浏览器,其中与各种人工智能代理的交互是主要输入——当然包括用于浏览网络的输入。它仍然有很多你知道和需要的东西,但添加了其他特定于人工智能的元素,并删除了许多不再需要的东西。这是一个您可以使用的浏览器,但它的构建同样考虑了您的“操作员”。它甚至不一定需要屏幕来操作。这就是打破 Chrome 统治地位的方法。也许还有谷歌的。
即使现在,在《特勤干员》的第一天,如果你眯着眼睛,你也能看到它。




1我的意思是,这里的实际答案当然是隐私。问问微软这个问题就知道了。但这只是这些服务的第一天,虽然 OpenAI 似乎说了所有正确的话来减轻隐私问题(他们不会保存他们正在为您进行的浏览、您输入的内容等数据),但仍然存在如果你想在这里生活在最前沿,就必须有一定程度的信任,或者至少需要理解。
2当我要求它浏览这个网站并总结最新的文章时,它特别奇怪。然后,当我介入接管时,不幸的是,这似乎让我的运营商绊倒了,然后运营商在接下来的 10 分钟内尝试在其浏览器窗口中重新调整我的网站大小。我的“操作员”需要眼镜吗?初期!
3值得注意的是,苹果的“Ferett”项目似乎试图通过解析应用程序 UI 来为应用程序启用类似的 AI 控制。