早在九月,我写道:
在考虑如何通过对废水进行测序来识别未来的流行病时,您的目标可能是在部分人当前被感染之前发出警报。然而,您实际上能够观察到的是测序读数,从感染率中删除了几个步骤。我们能否使用 covid 数据来估计目前感染某种病原体的人的比例如何转化为与病原体匹配的废水测序读数的比例?
在那篇文章中,我查看了单个宏基因组测序数据集 ( Rothman et al 2021 ) 中的单个病原体 (SARS-CoV-2),并得到了一个非常粗略的点估计(2.3e-8 相对丰度,流行率为 0.1%)。然而,有多少测序读数可能来自某种流行程度的新型病原体仍然是一个关键问题,本季度我正在与NAO的其他几位人员合作,试图更好地了解这一点。
具体来说,我们想了解相对丰度(与生物体匹配的测序读数的比例)如何随着流行率(目前感染的人的比例)和生物体(例如:因为我们正在对废水进行采样,所以你会期望更多胃肠道病原体多于血液病原体)。
这是目前的计划:
-
收集废水宏基因组测序数据,主要是通过查看发表在Sequencing Read Archive中的论文。如果我们也可以在这里包含我们自己的数据,我会很高兴,但我们还不够远,无法拥有太多。
-
处理测序数据(代码)以对其进行清理(删除适配器、修剪低质量碱基、折叠双端读取)并识别读取(将它们分配给分类节点)。
-
收集对宏基因组数据有贡献的人群中各种人类病毒流行率的相应估计。 (代码)
-
建立并拟合一个模型,将相对丰度作为流行率、测序方法和生物体类型的函数。
总的来说,这将是朝着估计这种检测的可行性迈出的一大步:成本应该与相对丰度成反比。
我们在 (1) 和 (2) 上已经走得很远了,如果您好奇,可以四处看看。这显示了样本中人类感染病毒的数量。这很粗糙(例如:我们还没有对 PCR 重复进行任何校正)所以不要太当真,如果您发现可疑情况请告诉我们。关于 (3) 和 (4) 的事情要早得多:我们目前有五种病毒的流行率估计,我希望得到至少十倍于此的数字。
(如果你好奇为什么自从我一个月前发帖以来我没有更多地谈论写书,这就是很多。就在我发帖的时候,我从主要从事个人工作转变为领导这个项目,并且抽出时间的机会成本变得更高。不过,我仍然想写一些东西来总结我从制作一本书的人那里得到的建议,而且我可能会回到这本书的项目中。)
这篇文章描述了NAO正在进行的工作,涵盖了包括Simon Grimm和 Asher Parker-Sartori 在内的一个团队的工作,他们估计患病率, Dan Rice建模,Will Bradshaw 评估测序方法, Mike McLaren确定相关论文并提供一般技术指导。
评论来自: facebook 、 lesswrong 、 EA 论坛、 mastodon
原文: https://www.jefftk.com/p/prevalence-to-relative-abundance