本月标志着联邦政府资助的科学家如何看待他们的数据的新纪元。从 1 月 25 日开始,申请美国国立卫生研究院资助的研究人员必须就如何管理和存储数据制定具体计划。这项影响深远的新政策旨在通过提高可重复性和鼓励更广泛地使用通常收集成本高昂的数据来推动科学进步。但它也引发了人们对有意义地共享数据所需的时间和精力的担忧。
“我认为 COVID 的大流行和研究表明,如果我们提供数据,我们可以更快地交流和推动科学向前发展,”国家神经疾病和中风研究所神经科学部主任Lyn Jakeman说。杰克曼指出,这项于 2020 年首次宣布的新政策的规划早在大流行之前就开始了。
十年前,一项联邦指令启动了新法规,目的是让公共资助的研究更广泛地获得,是在越来越多地推动跨科学领域的数据共享的情况下出台的。许多科学期刊强制或鼓励数据共享,非联邦资助机构也是如此。 NIH 已经要求共享临床和基因组数据,以及大型项目生成的数据。但新政策旨在驯服一头截然不同的野兽——从广泛的基础科学领域产生的数据。基础科学涉及实验试验和错误以及方法论的可变性,这两者都使数据共享变得更加困难。
由于涉及数据的多样性,共享和标准化数据一直是神经科学,尤其是系统神经科学的一个臭名昭著的挑战。与通常使用标准化仪器的基因组学或脑成像不同,神经生理学通常使用定制工具和定制数据处理管道,这些管道会产生各种格式的数据,这些数据很难在实验室之间共享。此外,伴随神经生理学实验的信息,即元数据,例如动物的行为、遗传学和其他因素,可能很难保持直截了当。 “相关数据可能真的很难管理,因为您必须确保跨文件和数据类型之间的联系得到维护,”加州大学圣地亚哥分校的神经科学家Maryann Martone说,她一直积极参与开放科学工作。 (有关神经科学中数据共享和标准化挑战的更多信息,请参阅我们的 2019 系列“神经科学中的数据共享问题”。)
在过去的五年中,已经开发了许多用于标准化、存储和处理神经科学数据的新工具,但它们的采用远非全面。虽然大多数研究人员认识到使数据更容易和更广泛地可用的广泛好处,但最好的方法仍然是争论的焦点。一些人希望使用标准化工具,而另一些人则希望继续试验,而频谱的两端都需要社区的更多支持才能有效。资助者和其他人希望新工具和联邦授权的结合将有助于促进更广泛的使用。 “我很喜欢这个要求,尽管我们还没有为此做好准备,”布兰戴斯大学的神经科学家Stephen Van Hooser说。 “我认为典型的实验室最初不会做得很好,但需求将刺激开发新的更好的方法,使数据共享更容易。”
“我认为我们正处于一个转折点;这就是这项政策所反映的,”麻省理工学院首席研究科学家Satrajit Ghosh说,他共同领导了一个由 NIH 资助的神经生理学和细胞成像数据存储库。 “随着公共云的发展以及研究计算基础设施的改进,我们现在有能力存储和处理大规模数据。”
具体对于系统神经科学和神经生理学数据,可用的工具包括Neurodata Without Borders (NWB),一个用于标准化神经科学数据存储方式的平台,以及Distributed Archives for Neurophysiology Data Integration (DANDI),一个用于发布、共享和处理神经生理学数据的平台.
对新政策的反应从忧虑到一种不情愿的感激之情不一而足。许多研究人员担心遵循新规则所需的时间和资源。其他人则表示,该政策还不足以确保有意义的数据共享水平。还有一些人赞赏将数据共享付诸实践的努力。 “我喜欢这为在我们的领域采用标准化实践提供了动力,”犹他大学神经科学家、西蒙斯全球大脑合作组织前研究员James Heys说。 “我说这是作为一个尚未在我的实验室做过这件事但知道从长远来看这是最好的事情的人,并且作为一个需要像这样的外部压力将数据标准化带到长期日常工作中的人来说-做清单。
文化转变
新政策的核心组成部分是调查人员必须在项目开始时概述他们将如何管理和存储数据。 “这是关于制定计划;在你开始实验之前,你要把你要创建的不同类型的数据放在哪里?”杰克曼说。她说,包括她自己在内,这需要许多调查人员转变思维方式。 “这是培养数据与我们在期刊文章中讲述的故事一样有价值的心态的开始。”
与一些机构或资助机构的政策不同,新的 NIH 范围的要求没有明确规定必须共享什么类型的数据、必须存储在何处或以什么格式。相反,研究人员必须共享“质量足以验证和复制研究结果”的数据。新政策的广泛性质反映了跨许多科学领域的数据共享的不稳定局面。 “我们希望鼓励研究社区为他们的社区建立最适合他们的数据标准和存储库,”Jakeman 说。 “从事临床研究和线虫神经生理学研究的人在共享数据方面会有很大不同。”
缺乏具体性引发了一些问题,例如必须共享什么级别的数据——从原始数据到处理过的数据。 Jakeman 说,NIH 内各个机构的答案可能会有所不同。 “关于是否应该共享原始数据,没有一个放之四海而皆准的办法。”在同行评审员评估了应用程序的科学价值后,NIH 计划工作人员将审查数据共享计划。 “这将由 NIH 工作人员决定需要共享何种粒度的数据,”她说。个别机构也在努力解决如何定义最有价值的数据类型。 “此时我们无法为生成的每种类型的数据定义可用,”Jakeman 说。 “我们必须依靠社区来定义什么是可用的,随着时间的推移,希望这些数据的质量会提高。”
一些研究人员担心数据共享的意义有多大——其他人是否能够理解和分析这些数据。 “在最坏的情况下,研究人员可以简单地勾选一个框来表明他们符合要求,但不会以有用的方式提供他们的数据,”情报高级研究项目活动 (IARPA) 的前项目经理 David Markowitz 说,他负责管理一个大型的神经科学项目。 “仅仅提供数据不足以保证它被用于科学。”其他人喜欢这样一个事实,即新政策没有明确规定必须共享哪些类型的数据或如何共享,因为它允许进行一段时间的试验,不同领域可以找出最有效的方法。 “我喜欢他们没有规定一种解决方案,而是让社区进行探索,”Van Hooser 说。 “我认为这是合适的,特别是对于神经生理学和光生理学,与基因组学和其他数据相比,在这些领域描述和就解释达成一致要困难得多。”
档案和标准
BRAIN Initiative 已经开始解决神经科学中数据共享的复杂性。 从 2020 年 3 月开始,BRAIN Initiative 赠款的接受者预计将共享他们收集的数据,并概述他们计划使用的数据标准和档案。 “这与 NIH 的新政策提出的要求截然不同,”Ghosh 说。为了准备任务,BRAIN Initiative 资助了数据档案的开发,包括 DANDI,专门用于不同类型的神经科学数据。档案的使用仍然很新,因此人们会发布什么以及数据和元数据是否经过充分注释以提供持久价值仍然是一个悬而未决的问题。
相比之下,NIH 范围内的数据管理规则没有指定申请人必须使用的特定档案或格式,但研究人员确实需要描述他们将收集的数据类型、适用的数据标准以及存储数据的存储库。常见的存储库包括Figshare和Mendeley 。具体对于神经生理学数据,DANDI 和 NWB 是 NIH 资助的两个候选者。 (SCGB 也帮助支持了 NWB。)DANDI 目前存储了 345 TB 的数据,包括 100 多个所谓的 Dandisets,包括大量的显微镜数据集。
成本和容量是大规模数据共享的主要问题,尤其是从长远来看。 DANDI 为科学家提供免费存储和访问,由 Amazon Web Services 公共数据共享计划提供支持。根据 Ghosh 的说法,目前数据存储容量已经足够了。 “我们目前还没有达到极限,所以我现在不会为此失眠。”但他表示,随着更新的仪器产生大量数据,这种情况可能会改变。 “未来 10 年,社区将需要围绕数据存储和寿命展开对话,”他说。他指出,DANDI 有备份存储计划,以防亚马逊服务出现问题。
要上传到 DANDI 的数据必须采用 NWB 格式,这是神经生理学数据的常用标准。自 BRAIN 和 NIH 数据共享授权宣布以来,人们对 NWB 的兴趣有所增加,但采用率仍远未普及。 “目前,转换是大多数研究人员面临的最大挑战,”Ghosh 说。 “尽管它并不完美,但 NWB 提供了一个灵活的系统,可以适应不断变化的技术,并且围绕它发展了一个工具生态系统。”
为了帮助新用户,NWB 和 DANDI 提供教程、文档和用户培训研讨会。他们还在开发新工具,例如NeuroConv ,一个开源数据转换库,现在可以处理36 种不同的常见数据格式,以及一个交互式界面,Ghosh 将其比作报税软件,以帮助研究人员转换他们的数据。 Ghosh 说,他的团队一直在开发 Jupyter notebooks 和其他教学资源,以指导如何使用 NWB 处理和分析数据,这些资源针对的是刚接触 NWB 和 NIH 政策的研究人员。尽管将数据转换为 NWB 可能很耗时,但它确实为实验室带来了回报。以广泛可读的格式存储的数据在实验室成员离开时丢失的可能性较小,并使协作更容易发展。 “有激励措施,”Ghosh 说。 “这不仅仅是分销;你可以对论文和研究进行分析和处理。”
10 月,NWB 与 DANDI、艾伦研究所和 Kavli 基金会合作举办了NeuroDataReHack活动,以帮助鼓励重复使用现有的 DANDI 数据集。 “这就是数据共享需要去的地方——存储的数据可用于再现性和产生新的科学见解,”Ghosh 说。 “我认为,我们才刚刚开始这个过程。”
其他人正在研究替代方法,例如用于处理数据的基于浏览器的界面和 API(应用程序编程接口)。对于MICrONS 项目,这是一项涵盖涉及 PB 数据的解剖学和神经生理学数据的大规模合作,研究人员开发了一个网站和 API,供科学家探索数据。 Markowitz 说,NIH 已经资助了一个后续项目以继续改进资源,研究人员正在申请资金以新颖的方式分析 MICrONS 数据。 Van Hooser 的团队还在开发一个用于处理数据的 API,称为神经科学数据接口,尽管它处于开发的早期阶段。
未来的挑战
关于数据共享和标准化最常被提及的担忧是它需要的时间和金钱。新法规规定申请应在其资助申请中包括与数据相关的成本,但 NIH 近期没有改变大多数资助机制的预算限制的计划。 “在没有特别审查的情况下,你最多可以要求 500,000 美元的直接成本,支付给软件开发人员的费用可能会占掉其中的很大一部分,”加州大学旧金山分校的神经科学家和 SCGB 调查员Loren Frank说。帮助开发了 NWB。 “我认为这将是未来的挑战。”
Frank 说,即使有可用资源,将数据转换为 NWB 格式也“绝非易事”。许多潜在用户不知道现有的基础设施和转换包,所有选项都需要时间、金钱或两者兼而有之。他说,“对于内部没有大量专业知识的人来说,这将特别棘手”,或者没有资源聘请外部帮助。 “需要做的事情和容易做的事情之间仍然存在很大差距。”为了帮助填补这一空白,Frank 的团队一直在构建基于 NWB 格式的数据处理和分析管道。这些工具在 GitHub 上可用,尽管它们目前处于 Frank 所说的预发布阶段。 “我希望年轻的教师能够借鉴我们所做的,对其进行修改并节省一两年的写作时间,”弗兰克说。
标准化元数据是另一个主要挑战。 Van Hooser 说,平台可能缺乏一种系统的方式来记录即使是简单的元数据,例如物种名称。 “这个元数据问题扩展到许多不同类型的数据,例如电极类型、数据格式、行为观察、视觉刺激、解剖结构——人们指代解剖结构的方式有很多种。”
俄勒冈健康与科学大学神经科学家兼研究多样性主任Letisha Wyatt担心数据共享的挑战会加剧科学资助中现有的不平等现象。 “没有获得大型项目资助的小型实验室或无法获得相同水平资助的少数族裔科学家将处于一个他们可能没有足够资源来满足这项新数据共享政策要求的地方。就像资源充足的实验室一样,”她说。
怀亚特还担心在培养年轻科学家方面几乎没有做出任何努力。 “我们已经进行了一段时间的对话,我认为我们没有解决问题的根源——这个领域的新科学家很少接受正式培训,”她说。 “对于研究生来说,重要的是他们在整个培训过程中接触到有效和严格的数据共享方法,以便在他们需要时练习和熟悉。”
对于刚刚开始考虑数据共享计划的研究人员,Martone 建议首先关注数据在他们自己的实验室中是如何存储和共享的。她说,正是在这里,PI 获得的收益最大,这些方法将转化为更广泛的存储和共享需求。 “无论如何,这些都是我们应该做的事情,以使我们的实验室工作得更好。”简单的程序,例如文件命名约定,可以产生很大的不同。 “我们很少考虑下一个打开文件的人,”她说。 “具有相关技能的理性人应该能够理解它。”
Martone 还建议联系在管理和编目信息方面具有专业知识的大学图书馆,并参加基本数据管理方面的在线课程,例如通过 Coursera 或 FASEB(美国实验生物学学会联合会)计划的北卡罗来纳大学课程称为DataWorks ,旨在支持数据共享和重用。
Martone、Wyatt 和其他人希望社区开始更正式地奖励有效的数据共享。研究人员通常根据他们的发表记录进行评估。但他们的表现也应该“与数据共享、培训和开放科学实践相关联”,怀亚特说。 “我们需要奖励做得好的人。”
原文: https://www.simonsfoundation.org/2023/01/30/neuroscientists-grapple-with-new-data-management-rules/