大约十年前,基于“机器学习”的系统开始在计算机视觉研究人员竞赛 Imagenet 中产生非常好的结果。那些研究人员很兴奋,然后 AI 的其他人也很兴奋,然后,很快,技术领域的其他人也很兴奋,因为很明显,这是我们可以用软件做的事情的一步改变,它可以大规模推广超越酷识别猫图片的演示。
我们现在可能正在围绕生成网络经历类似的时刻。已有 200 万人注册使用 ChatGPT,许多技术人员非常兴奋,甚至比几周前使用相同技术制作图像时更兴奋。这是如何概括的?什么样的事情可能会变成生成式 ML 问题?这对搜索意味着什么(以及为什么 Google 不提供它)?能写代码吗?复制?新闻业?分析?然而,相反,打破它非常容易——让它说出明显错误的话。随着人们意识到聊天机器人的局限性,围绕聊天机器人的热情浪潮在很大程度上消退了,亚马逊上个月削减了 Alexa 团队。我们对此有何看法,它在做什么?
在我看来,机器学习的概念转变是将一组“人们容易做,但人们很难描述”的问题从逻辑问题转变为统计问题。与其尝试编写一系列逻辑测试来区分猫的照片和狗的照片,这听起来很容易但从未真正奏效,我们为计算机提供一百万个样本并让它完成推断模式的工作在每组中,然后给它一张新图像并询问它似乎匹配哪些模式。这非常有效,并且泛化能力远远超出图像范围,但具有固有的局限性,即此类系统对问题没有结构性理解——它们不一定有任何眼睛或腿的概念,更不用说“猫”了。
为了极大地简化,生成网络以相反的方式运行——一旦你确定了一个模式,你就可以制作一些似乎符合该模式的新东西。所以你可以制作更多“猫”或“狗”的照片,你也可以将它们组合起来——“穿太空服的猫”或“一首关于风险投资家拒绝创始人的乡村歌曲”。首先,结果往往很混乱,但随着模型变得更好,输出可能非常有说服力。
然而,他们仍然没有像我们所做的那样(或者至少,正如我们认为的那样)真正从“狗”或“合同法”的规范概念开始工作——他们正在匹配、重新创建或重新混合一个看起来像的模式那个概念。
我想这就是为什么当我要求 ChatGPT“写本尼迪克特·埃文斯的传记”时,它说我在 Andreessen Horowitz 工作(我离开了),在贝恩工作(不),创立了一家公司(不),并写了一些书(没有)。很多人都发布了 ChatGPT 断言的“虚假事实”的类似例子。它通常看起来像一个本科生自信地回答一个他没有参加任何讲座的问题。它看起来像一个自信的废话,可以写出非常有说服力的废话——OpenAI 称之为“幻觉”。
但这到底是什么意思呢?再看看那个简历,它非常准确地描述了像我这样的人的简历往往会说的那种事情。它与模式非常匹配。那是假的吗?这取决于问题。这些是概率模型,但我们对概率答案的准确性的看法因领域而异。如果我要求“韦斯·安德森执导的《异形》中的胸部爆裂方案”并获得 92% 的准确输出,没有人会抱怨西格妮·韦弗的发型不同。但是如果我要求一些 JavaScript 或合同,我可能会得到一个“98% 准确”的结果,看起来很像我要求的 JavaScript,但 2% 的错误可能会破坏整个事情。换句话说,有些请求并没有真正的错误答案,有些可以是大致正确的,而有些则只能是精确的正确或错误,不可能是“98%正确”。
因此,机器学习的基本用例问题是“我们可以将什么转化为图像识别?”或者“我们可以将什么转化为模式识别?”生成式 ML 的等效问题可能是“我们可以将什么转化为模式生成?”以及“哪些用例对错误范围或随之而来的人工制品有什么样的容忍度?”
这可能是一种有用的方式来思考这对谷歌意味着什么——你在问什么样的问题?有多少 Google 查询是针对特定内容的搜索,有多少实际上是对可以动态生成的答案的请求,精度如何?如果你问图书管理员一个问题,你是问他们地图集在哪里,还是让他们告诉你南美洲最长的河流?
但更一般地说,十年前 ML 的突破伴随着图像识别的精彩演示,但图像识别本身并不是重点——现在每家大公司都已经为各种看起来与那些演示完全不同的东西部署了 ML。今天也一样——在哪些用例中,给定准确度的模式生成是有用的,或者可以转化为模式生成,但看起来与演示完全不同?考虑这个问题的正确抽象级别是多少? Qatalog是一种无代码协作工具,现在正在使用生成式 ML 来制作新应用程序——而不是制作一百个模板并要求用户选择,用户输入他们想要的内容,然后系统生成它(我在 Mosaic Ventures 的朋友是投资者)。这看起来不像病毒式生成的 ML 演示,实际上它看起来根本不像 ML,但是现在大多数 ML 产品“看起来”都不像 ML——这就是它们的工作方式。那么,与制作图片或文字无关的用例有哪些?
不过,还有第二组问题:与混音相比,这能创造多少?
这些系统似乎天生就是基于它们已经拥有的模式来制造事物。它们可以用来创造一些原创的东西(“一只穿着太空服的猫,就像一张铁皮照片”),但原创性在于提示,就像照片可以是艺术,也可以不是艺术,取决于你指向的地方相机和为什么。但是,如果从聊天机器人到 ChatGPT 的进步在于自动回答问题,那么我们也可以自动回答问题吗?我们可以自动化提示工程吗?
将 AlphaGo 与一句古老的谚语进行对比可能会有用,即一百万只打字机的猴子将及时产生莎士比亚全集。 AlphaGo 生成了围棋专家认为新颖且有价值的走法和策略,它通过生成大量走法并查看哪些走法——哪些走得好来做到这一点。这是可能的,因为它可以和自己下围棋,看看哪个好。它有反馈——自动化的、可扩展的反馈。相反,猴子可以创作十亿部戏剧,其中有些是胡言乱语,有些甚至比莎士比亚的还好,但它们无法知道哪个是哪个,我们也永远无法通读一遍。博尔赫斯的图书馆里满是人类前所未见的杰作,但您如何才能找到它们呢?评分系统是什么?
因此,生成式 ML 系统可以制作更多的“迪斯科”音乐,如果你足够具体地描述它,它也可以制作朋克音乐(同样,提示工程),但它不会知道是时候改变了,它也不会知道朋克会表达这种需求。你什么时候可以要求“一些原始、新鲜和愤怒的东西,这是对前卫摇滚的根本改变?”系统什么时候可以知道人们可能想要那个?创造看起来像我们已有模式的新东西有一些独创性,但重要的独创性在于打破模式。你能得分吗?
有一个笑话,AI 代表“匿名印第安人”,因为在你可以为图像识别系统提供一百万张狗的照片和一百万张猫的照片作为自动训练数据之前,外包公司的实际人员必须标记所有这些图像。循环中有人。但是,我们今天使用的每一个十亿规模的系统都依赖于循环中的人。谷歌搜索分析人们如何与互联网互动,就像它分析内容本身一样。 Instagram 可以通过比较你似乎喜欢的东西和其他十亿人似乎喜欢的东西来向你推荐东西,而不是通过了解这些东西本身。图像识别可以达到不同的抽象级别,但是又是谁给图像贴上标签呢?
如果循环中总是有人——如果这些东西在某种程度上都是机械土耳其人——那么问题就是你如何找到正确的杠杆点。雅虎曾尝试花钱请人一次对整个网站进行编目,但这是不可扩展的。一方面,谷歌基于网络的人类行为聚合模式,另一方面,它会为您提供十个结果并让您选择一个 – 由数十亿用户手动管理。索引是机器做的,但它索引的语料库是人做的,结果是人选择的。以几乎相同的方式,到目前为止,生成网络一方面依赖于人们已经创造的事物中的模式,另一方面依赖于人们有新想法输入提示并选择好的想法。那么,您将人员放在什么位置、发挥什么作用以及在哪些领域?
我用来描述机器学习的方式之一是它给你无限的实习生。你不需要专家听一个客服电话听到客户生气代理无礼,一个实习生就可以,但是你不可能让一个实习生听一个亿个电话,而且用机器学习你可以。但另一方面,ML 给你的不是无限的实习生,而是一个具有超人速度和记忆力的实习生——一个可以听十亿个电话并说‘你知道吗,在 3 亿个电话之后,我注意到了一个你没有注意到的模式“知道……”这可能是看待生成网络的另一种方式——它是一个 10 岁的孩子,他读过图书馆里的每一本书,可以向你复述一些东西,但有点乱码,而且不知道 Jonathon斯威夫特实际上并没有谦虚地提议为穷人提供新的收入来源。
那他们能做什么呢?这取决于你可以问什么,你可以向他们解释和展示什么,以及他们需要怎样的解释。这实际上是一个更普遍的机器学习问题——哪些领域足够深,机器可以找到或创造人们永远看不到的东西,但又足够窄,我们可以告诉机器我们想要什么?
原文: https://www.ben-evans.com/benedictevans/2022/12/14/ChatGPT-imagenet