作为Knowing Machines研究项目的一部分,Sarah Ciston 撰写的A Critical Field Guide for Working with Machine Learning Datasets为处理复杂和大型数据集的生命周期提供了建议:
机器学习数据集功能强大但不实用。它们通常太大,无法手动检查所有数据、查找不准确的标签、非人性化的图像或其他普遍存在的问题。尽管数据集通常包含有问题的材料——无论是从技术、法律还是道德的角度来看——但在谨慎和批判性地处理时,数据集也是宝贵的资源。本指南提供问题、建议、策略和资源,以帮助人们在其生命周期的每个阶段使用现有的机器学习数据集。有了这种理解,研究人员和开发人员将更有能力避免数据集特有的问题。他们还将能够构建更可靠、更强大的解决方案,甚至可以利用更关键、更认真的机器学习数据集探索有前途的新思维方式。
在电子表格布局中构建指南的加分点。
标签:伦理学,指南,机器学习, Sarah Ciston
原文: https://flowingdata.com/2023/02/16/guide-for-working-with-machine-learning-datasets/