确定并启动数据科学项目后首先要做什么?
我开始了一个基于文本数据的无监督学习项目。我喜欢做的第一件事就是查看数据。吵吗?有哪些功能——需要复杂的功能工程?异质性如何?有哪些泛化和过度拟合的挑战?
分析可以采取多种形式:实际查看数字、使用可视化工具、Excel 电子表格、带有 Matplotlib 的 Jupyter 笔记本、计算整个数据集或部分数据集的各种统计数据。
有些人可能认为这并不重要。只需对数据进行一系列分类或回归方法,将数据视为黑匣子。当然,对一套机器学习方法进行测试并不是一件坏事。但我无法想象不使用所有可用的途径,包括查看数据。我当然不是唯一持这种观点的人(例如,参见此处、此处和此处)。
我花了几个小时为我的问题开发了一个简单的自定义数据查看器,它对文本数据的不同部分进行了着色,以深入了解正在发生的情况。我使用 ChatGPT 来开发这个工具的部分内容;其中一些是不正确的,需要修复,但至少有一份代码草案肯定可以节省时间。亲自看到实际数据是有洞察力的,并产生了解决问题的想法。
虽然检查数据可以帮助识别问题,但它也存在通过强加灵活模型可能自行发现的假设而使建模过程产生偏差的风险。人们还必须提防数据泄露。话虽如此,总的来说,我认为尽可能多地了解数据并不是一件坏事。
查看您的数据一文首次出现在John D. Cook上。
原文: https://www.johndcook.com/blog/2025/03/29/looking-at-your-data/