丹妮卡·哈罗德2024 年 12 月 5 日 – 晚上 11:11
我们将数据素养定义为描述某人探索、理解和利用数据进行交流的能力的能力范围。如今,当我们有疑问时,有大量数据可供我们找到答案,而拥有一些数据素养将使这成为可能。不幸的是,它的结构并不总是易于使用,这就是为什么我们要花时间探索数据的不同特征、数据的结构方式以及原因。最后,我们将讨论如何重组数据以使其更好地满足您的需求。
知道在数据中寻找什么
有很多词用来描述物品的细节:特征、特征、规格、描述。所有这些都可以帮助我们找到所需的信息,以确定某件事是否适合我们正在做的事情。最近,我需要更换自行车上损坏的零件。为了使自行车正常工作,我购买的替换件必须符合原件的规格,确保这一点的唯一方法是阅读我正在考虑购买的零件的描述。查看数据时也是如此:为了让我们得到所需的答案,数据必须具有使我们能够找到答案的特征,而确保答案的唯一方法就是知道它需要哪些品质才能成为一个好的答案。合身。
第一个特点是高容量。更多(相关)数据为我们提供了更可靠的结果。如果有人告诉您一家餐馆很好,您可能会相信他们。然而,如果 100 个人告诉你一家餐厅很好,你很难相信其他餐厅。我们的专业数据也是如此——更多的记录告诉我们某些事情是好是坏,让我们对结果更有信心。
第二个特征是历史性的。如果我第一次访问西雅图,并且第一天天气晴朗,那么我说西雅图总是晴天就太天真了。我需要回溯相当长一段时间的数据才能有信心做出这样的声明,这对于您的分析来说没有什么不同。您拥有的历史数据越多,您就越有可能准确预测未来会发生什么。
第三,我们有Detail 。最近,我家厨房水槽的水压明显下降,迫使我去解决这个问题。首先,我检查了供水系统,然后检查了水槽下的阀门,然后检查了通往水龙头的管线,最后检查了水龙头本身,每个死角都变得更加详细。我终于发现是水龙头里的杂物挡住了水流。这与探索数据以了解我们的业务或生活中发生某些事情的原因没有什么不同。我们的数据越详细,我们的答案和洞察就越深入和准确,我们可以自信地利用这些来做出最佳决策
最后是一致性和标准化。想想上次您与朋友交谈时,你们使用相同的词语,但对它们的含义有不同的理解。最终你会遇到沟通不畅的情况,这可能会导致以后出现问题。同样,数据缺乏一致性:字段名称、日期格式、数字格式以及数据记录方式缺乏标准化会导致数字无法准确表示实际发生的情况。想象一下,您在一家手机商店工作,退回了五部 iPhone。输入您所输入的内容时:iPHONE5、Iphone5、iphone 5、I Phone 5 和 Iphone Five。然后,您尝试报告您退回了多少部 iPhone 5,但您的系统不再显示五部 iPhone 5,而是显示了五部不同 iPhone 的退回,因为您的系统不可能知道它们是同一件东西。对命名约定、日期格式或货币进行标准化可以防止出现此类情况,并提供准确了解数据所需的一致性。
了解结构良好的数据是什么样子
这必然会发生。有时您会遇到一些感觉难以处理的数据。您可能不知道为什么,但我敢打赌这归结于数据结构不合理。这是一个有点负载的陈述,因为“结构良好”的含义可能会根据用例以及您正在使用的系统/应用程序而有所不同,但是有一些基本的数据结构原则可以改善您在使用时的体验数据。
首先,您需要弄清楚它将如何使用。您打算使用软件来可视化数据吗?或者您是否在电子表格中呈现数据?或者您正在为其他人准备数据?每种方法都会改变数据的结构方式。每条规则都有例外,但是一旦您知道了它的使用方式,这些提示就是帮助您入门的良好经验法则:
列和行构成了我们结构的核心。就像建筑物中的列一样,数据中的列是数据结构在页面上上下延伸的垂直部分。在下面的示例中,“日期”将是一列信息以及其他 7 列。另一方面,行是数据结构的水平部分,从左到右跨越页面。在下面的示例中,有 12 行数据。
如果您使用 Tableau 等软件来可视化数据,则每一行都应该是一个实例或一个事件,每一列都应该代表有关该实例或事件的详细信息。在下图中,第一行(或事件)是通勤。详细信息(列)是日期、一天中的时间、温度、降水类型等……第一行之后的每一行都是一个附加事件,我们收集与上面行(事件)中相同类型的详细信息:
这使得软件在尝试检索问题答案时可以轻松搜索您的数据。这种格式的缺点是人类很难使用,这就是为什么当人们无法访问数据可视化软件时,看到这样的数据结构并不罕见:
上面的格式是人类可读的,但需要您手动计算总计和聚合,并操作结构。随着新数据的添加,这种结构也会随着时间的推移而继续变宽,使得在没有大量滚动的情况下进行可视化分析变得更加困难。最后,为每个日期设置单独的列或在单个列中包含多种类型的值使得应用程序几乎不可能帮助您分析数据。
想要了解更多有关结构良好的数据的信息吗?立即查看此 Trailhead 模块!
如果您的数据结构不佳该怎么办
我们可以采取一些简单的措施来解决大量数据问题,而不是让这些问题阻止我们获得答案。
回到源头。重组数据可以帮助解决眼前的问题,但并不能解决更大的问题,即数据最初是如何形成的。它还创建了可能不符合您的公司标准的额外数据源,这在比较整个企业的结果时可能会出现问题。与您的数据团队一起开始看看有什么可能是最好的决定。请记住,为了让他们做出正确的改变,他们需要大量的背景信息,因此请准备好解释您希望从数据中获得什么。
做出改变。在完美的世界中,您的数据团队将帮助您修复结构不良的数据,但这并不总是可能的,而且并非每个人都有数据团队。如果不是,您可以自行解决一些常见的结构问题。
把他们分开!第一个问题是当应该单独的字段显示为单行信息时。例如,如果字段 [名称] 和 [客户 ID] 一起显示为:
“SamPriddy CN1357WA”并且需要成为单独的字段,您需要执行所谓的“拆分”。拆分使用户能够选择使用哪个“分隔符”来决定在何处分隔字段。分隔符只是用户选择用作断点的信息行中的字符的名称。因此,在上面的示例中,字段显示:“SamPriddy CN1357WA”,我们可以使用“空格”字符作为断点或分隔符,因为我们希望将名称与客户 ID 分开。此功能直接内置于 Tableau Desktop 和 Tableau Prep 中,无需编码。想了解如何学习吗?查看这篇帮助文章以获取更多信息。
枢轴,枢轴。第二个问题与上面的通勤数据示例相关。在人类可读的形式中,数据很宽,每个日期都有一列,下面的列中填充了不同类型的值的混合。您可以使用“枢轴”将数据从宽改为长。
这绝不是进行枢转的唯一方法,而是概念及其含义的示例。下面是一个简化的示例来说明该过程:
以下数据经过格式化以供人类使用。不过,我们想在 Tableau 中使用它,但这种格式不起作用。我们需要做一个枢轴以使其进入适当的结构。
首先,我们将通过转移数据来腾出空间。然后,我们将使分类字段成为列标题。即外套类型、路线类型。考虑整体类别而不是具体时刻:
接下来,我们将为日期等字段创建一个列。再次思考,我们希望这些列是一个高级类别,而不是单个日期或细节。然后我们将开始用我们的值回填列。在下图中,我们将获取所有日期并将它们移至新列。
同样,我们将填写成为列/类别的所有字段的值。
填充最后一列后,我们就可以连接到此数据来回答一些问题。
此示例旨在说明这一概念,但您更有可能在 Tableau Desktop 等工具或 Tableau Prep 等数据准备工具中执行数据透视。在这些情况下,这些工具具有消除上例中所示的手动工作的功能,但最终会为您提供相同的结果。想要了解如何在 Tableau 中进行数据透视?查看这篇帮助文章以获取深入的说明。
接下来怎么办?
做一块海绵,练习、练习、再练习!你能做的最好的事情就是继续学习,并尽可能多地实践。查看我们的数据技能主页,获取大量数据素养资源。访问Tableau Public免费下载和使用 Tableau Desktop 以及免费学习和示例数据集!如果您更喜欢网络研讨会,请查看Datafam Discovery Kit以获取有关即将举行的实时网络研讨会的更多资源和更新。
原文: https://www.tableau.com/blog/learn-basics-well-structured-data