昨天,在蒙特卡洛影响峰会上,我分享了我对 2023 年数据的 9 个预测。这是幻灯片,我已将它们嵌入下方。
这是我的 9 个预测。一年后,我会给他们打分,看看我做得怎么样。
- 到 2024 年,云数据仓库 (CDW) 将处理 75% 的工作负载。在过去五年中,CDW 已从工作负载的 20% 增长到 50%,其余部分由本地数据库构成。与此同时,该行业在此期间从 $36b 增长到 $80b。
- 数据工作负载将按用例分为三组。首先,像DuckDB这样的内存数据库将在本地分析中占据主导地位,即使是对海量文件也是如此。 CDW 将保留经典的 BI 和探索用途。云数据湖库将服务于处理大量数据的作业和不需要最快延迟的作业 – 并且以存储价格的一半来完成。
- 度量层将统一数据堆栈。今天,数据有两种不同的分支。第一个分叉使用 ETL 将数据泵入 CDW,然后泵入 BI 或数据探索工具。第二个分支,机器学习堆栈,除了输出是相同的:模型服务和模型训练。度量层将成为定义度量和特征的单一位置,将堆栈和可能移动的模型服务和训练统一到数据库中。
- 大型语言机器学习模型将改变数据工程师的角色。我录制了一段自己编写代码以生成图表并将其嵌入演示文稿的视频。该视频展示了 Github Copilot 神奇地创建了 DuckDB 明星增长图表。 Copilot 接收评论,编写代码,甚至添加我的自定义主题功能。当我执行代码时,它可以工作。像这样的技术将把数据工程工作推向更高的抽象平面。
- WebAssembly 或 WASM 将成为面向最终用户的数据应用程序的重要组成部分。 WASM 是一种加速浏览器软件的技术。页面加载速度更快,数据处理速度更快,用户更快乐。每个主流浏览器都支持 WASM,因此,任何为最终用户制作数据应用程序的人都会使用它。
- 笔记本电脑将赢得 20% 的 Excel 用户。在全球 1b 个 Excel 用户中,20% 将成为产消者,编写 Python/SQL 来分析数据。他们将在 Jupyter 之类的笔记本中执行此操作,这些笔记本易于共享、可复制和版本控制。这些笔记本将成为公司内部最终用户使用的数据应用程序,取代脆弱的 Excel 和 Google 表格。
- SaaS 应用程序将使用CDW 作为读写的后端。如今,销售、营销和财务数据存在于不同的系统中。 ETL 系统使用 API 将数据推送到 CDW 中进行分析。未来,软件产品将在 CDW 之上构建其应用程序,以利用集中式安全性、更快的采购流程和相邻数据。这些系统也将回写到 CDW。
- 数据可观察性成为必备品。软件工程师通过正常运行时间来衡量他们工作的成功与否。 99.9% 或三个九的正常运行时间意味着每 1000 小时仅发生 1 起事件。今天的数据团队看到每 1000 个表中有 70 个事件。数据团队将在数据正常运行时间/准确性指标上保持一致,并使用数据可观察性工具来衡量他们的绩效,从而达到三个九的等效值。
- 数据十年仍在继续。数据初创公司在 2021 年总共筹集了超过 60b 美元,占所有风险投资资金的 20% 以上。我们仍处于这一基础运动的早期阶段。
感谢蒙特卡洛团队提供的机会和观众在最后提出的好问题。我会在直播时发布演示视频。