技术充满了叙述,但最响亮的叙述之一是围绕着一种叫做“数据”的东西。人工智能是未来,这一切都与数据有关,数据就是未来,我们应该拥有它,也许会为此付出代价,各国需要数据战略和数据主权。数据就是新油!
这多半是胡说八道。没有所谓的“数据”,它一文不值,而且它也不真正属于你。
最明显的是,“数据”不是一回事,而是无数不同的信息集合,每个集合都特定于特定的应用程序,不可互换。西门子有风力涡轮机遥测,伦敦交通局有刷票,您不能使用涡轮遥测来规划新的公交路线。如果你把这两组数据都给谷歌或腾讯,那将无助于他们建立一个更好的图像识别系统。
直截了当地说,这似乎微不足道,但它指出了非常普遍的断言是无用的,尤其是来自科技以外的人,比如“中国拥有更多数据”或“美国将拥有更多数据”——更多的是什么数据?美团每天交付 5000 万份餐厅订单,这让它可以构建更高效的路由算法,但不能将其用于导弹制导系统。您甚至可能无法使用它在伦敦建立餐厅外卖业务。 “数据”不是作为一个单一的、统一的东西存在的,您可以将每一行和每一种不同类型的表格添加到一个巨大的池中,并获得越来越多的洞察力。创建“国家数据战略”就像要求制定“国家电子表格战略”或“国家 SQL 战略”。
当然,当人们谈论“数据”时,他们主要指的是您的数据——您的个人信息以及您在互联网上所做的事情,其中一些是由科技公司筛选、汇总和部署的。我们想要更多的隐私控制,但我们也认为我们应该拥有这些数据的所有权,无论它在哪里。
问题是,大多数“你的”数据的意义和价值并不在于你,而是在于与其他人的所有交集。你在 Instagram 上发布的内容意义不大:信号在于谁喜欢你的帖子,他们还喜欢什么,你喜欢什么,还有谁喜欢它,谁关注了你,他们关注了谁,还有谁关注了他们,等等-在十亿人之间的互动网络中向外展开。如果我喜欢你的照片,那不仅仅是你的“我的”数据或“你的”数据,如果没有所有其他喜欢和关注的背景,它就没有多大价值。您不能随身携带,因为它也是很多其他人的数据(和隐私!),即使您这样做了,您也可能无法将其插入 TikTok,因为 TikTok 具有不同的网格并且用户没有’不重叠。
也就是说,对于这些系统中的许多系统来说,价值根本不在“数据”中,而是在围绕它的活动流中——意义不在于您发布的图片或视频,而在于网络如何对其做出反应,并且产品如何产生和捕捉这种反应。您可以将 Instagram、TikTok 或 PageRank 视为巨大的机械土耳其人——我们(还)没有能够理解每个页面、图片或视频本身的人工智能,因此我们需要人类——我们所有人——在某个地方的循环中,在正确的杠杆点,喜欢,链接,点击和观看(当然还有创造)。这些是系统,而不是数据,价值在于流动。
所有这些都促使蒂姆·奥莱利(Tim O’Reilly)说“数据不是石油——它是沙子”——数据只有数百万的总和才有价值。事实上,即使在简单的现金流基础上也是如此——在2022 年第一季度,Meta 每月每位每日活跃用户仅赚取 99 美分的自由现金流。
这也适用于“个人”数据,您可以有意义地说它是“你的”。您的用电量与其他人无关,但它本身并不有价值,仅是伦敦南部或布鲁克林所有家庭用电量的总和。 DeepMind 的研究人员或许能够从 100 万张胸部 X 光片中发现一些新的和临床上重要的相关性——但你的 X 光片本身并没有得到任何东西,而且他们没有将这些 X 光片输入 AlphaGo。同样,数据不是一回事。
我们以前来过这里:今天围绕人工智能和数据的讨论看起来很像 1980 年代围绕数据库的讨论。我们改变了我们可以利用信息做什么,可以提出什么问题,以及组织如何运作。当数据库是新的时,我们担心,其中一些担心是真实的,但今天没有人问美国是否有更多的 SQL,或者 SAP 是德国的是否重要。达沃斯没有人谈论“SQL 殖民主义”。这些技术不是国家战略资产——任何人都可以拥有它们,但有什么用呢?数据库支持即时供应链,沃尔玛,让苹果在中国生产 iPhone——这些都是战略问题。人工智能和“数据”也是如此——它不是新石油,只是更多的软件,那么你用它来构建什么?
原文: https://www.ben-evans.com/benedictevans/2022/5/27/theres-no-such-thing-as-data