Rick Young是麻省理工学院的生物学教授,他研究从不编码蛋白质的基因组部分转录的 RNA,即非编码 DNA。这部分基因组曾经被称为“垃圾 DNA”,它让你了解许多人对其价值的看法。科学家们惊讶地发现它构成了人类基因组的 98%,这引发了寻找其功能的探索。
在这次对话中,Rick Young 与Bio Eats World的Hanne Winarsky和 a16z 的普通合伙人Jorge Conde进行了交谈,后者在生物学、计算机科学和工程的交叉领域领导投资。在加入 a16z 之前,Conde 是 Syros Pharmaceuticals 的首席战略官,并共同创立了基因组学解释公司 Knome。
对话涵盖了我们对我们认为是垃圾的 98% 基因组的了解。事实证明,它有各种各样的工作,从隐藏古代病毒感染的证据到让每张脸看起来都独一无二。他们还讨论了它在疾病中的巨大但仍知之甚少的作用,以及研究垃圾 DNA 如何导致发现一种没有人预料到的基因开/关开关。
注意:此对话最初是作为Bio Eats World的一集发布的。你可以在这里收听那一集。
HANNE WINARSKY:我们今天在这里讨论所谓的垃圾 DNA。我们可以从一个简单的定义开始吗?
RICK YOUNG:这大约是半个世纪以前的术语。科学家们知道基因组中不编码蛋白质的部分,他们推测这是垃圾。我们知道其中一些只是古代病毒入侵基因组的残余物。但是,垃圾DNA这句话一直困扰着我们。
HANNE:那么你想用什么词代替呢?我们每天都在了解更多关于 DNA 的暗物质?
里克:非编码DNA。
HANNE:为什么他们认为它是碎屑?您已经提到其中一些是剩余的旧病毒位。但为什么从一开始就不是一个谜呢?
里克:因为在整个生物学史上,关于什么是遗传物质一直存在争论,最初,它被认为是蛋白质。但是一旦明确蛋白质是机器,DNA是机器的蓝图,人们就会忙于机器,因为机器的缺陷会导致疾病。但后来发现只有 2% 的基因组编码蛋白质的氨基酸。绝大多数,98%,没有。 2000 年,当人类基因组计划的科学家提出人类基因组序列时,该数据证实了我们 32 亿个碱基中的 98% 不编码蛋白质。
每个基因都具有非凡的能力,可以获取它将编码的蛋白质片段并对其进行排列,以便您在一个细胞中获得的产品可能会更快地工作,或者在另一个细胞中实际上可能会进入不同的细胞。隔间做不同的工作。
JORGE CONDE:最初估计在这 32 亿个碱基对中将编码多少基因?
RICK:我们确定了大约 100,000 个。我们只是假设我们越复杂,基因组越大,基因的数量也就越多。当我们意识到我们和昆虫的基因数量大致相同时,我们有点震惊。
JORGE:编码我们认为是极其复杂的有机体的基因比我们预期的要少,对吧?
汉内:这有点令人震惊。
相同的源代码,不同的程序
豪尔赫:我们在高中都学到的一件事是,DNA 编码 RNA,RNA 编码氨基酸,氨基酸给我们蛋白质,对吗?这就是现代生物学的中心法则。
里克:是的。人们很快将 98% 的不编码蛋白质的基因组称为“垃圾 DNA”的主要原因之一是,在很大程度上,人们认为基因组的业务目的是制造蛋白质。
JORGE:那么遗传学家是什么时候开始意识到垃圾DNA可能不仅仅是垃圾?
RICK:[开始时]意识到你可以通过大量的选择性剪接来解释人类与昆虫相比的额外复杂性。对于单个基因,这就是你制造的大 RNA,但它在一个细胞与另一个细胞中的剪接方式不同。换句话说,基因的不同部分最终出现在将指定蛋白质的 RNA 分子中。所以蛋白质有点不同。
国家人类基因组研究所,公共领域,通过维基共享资源
HANNE:这听起来有点像万花筒,光线照射的方式不同,你会得到不同的颜色,不同的角度。
里克:嗯,这是一个有趣的类比。我认为一个更好的类比是当你拥有这些乐高积木时,你可以制造一台机器,但你可以用很多不同的方式制造它,很多不同的结构和颜色。每个基因都具有非凡的能力,可以获取它将编码的蛋白质片段并对其进行排列,以便您在一个细胞中获得的产品可能会更快地工作,或者在另一个细胞中实际上可能会进入不同的细胞。隔间做不同的工作。
JORGE:特定人类的每个细胞都具有大致相同的基因组。然而,相同的基因组产生了令人难以置信的多样化的不同细胞类型。因此,就我们要进行类比而言,每种细胞类型都在使用相同的源代码运行不同的程序。
里克:没错。
98%的功能
JORGE:你不需要成为专家就可以研究不同的细胞类型并了解它们的多样性,对吧?一个神经元看起来非常、非常、非常不同,功能也非常非常不同,比如说,肌肉细胞。是什么决定了程序,一个细胞选择运行的基因程序?是什么让肌肉细胞成为肌肉细胞,又是什么让神经元成为神经元?
RICK:所以我们从 DNA 制造 RNA 而 [RNA] 制造蛋白质开始。这就是中心法则。但大约半个世纪前,科学家们开始提出这样的论点,即实际上 RNA 开始自行创造各种功能。事实证明,RNA实际上在发育的最初阶段就具有一些活性。
当精子遇到卵子时,她将母亲的 RNA 放入卵子中。有 RNA 分子正在这样做。事实证明,我们经常使用的抗生素会与 RNA 结合。所以RNA在那里有一些非常重要的作用。这改变了人们的思维方式。然后,当我们开始考虑垃圾 DNA 时,那是 DNA 中不编码蛋白质的部分。好吧,如果世界是基于 RNA 而不是蛋白质,至少在开始时会怎样?所以现在我们明白了,很大一部分我们称之为垃圾DNA,或者我们曾经称之为垃圾DNA的东西,并不是垃圾。它功能强大。其中大部分产生RNA。
所以你对任何一个细胞进行编程的目标是使用特定的序列集,将每一个常见的基因集调整到你想要的水平。 . . .我们的问题是我们实际上并不知道这个程序。
汉内:哇。你能稍微介绍一下我们在理解 DNA 的非编码部分方面的情况吗?你知道,我们目前对那里所有不同可能性的理解是什么?
RICK:我们的基因组中只有 2% 编码这些进入蛋白质的氨基酸序列。那么我们会计账簿上的其余部分是做什么的呢?
我们大约一半的基因组是我们所说的异染色质。这就是你获得古代病毒入侵产物的地方。古代逆转录病毒入侵,然后转化为DNA,插入基因组。所以这实际上是我们在整个进化历史中都有的一种方法来隐藏我们不想处理的序列。除了一个重要的例外,它在我们的基因组中保持沉默。
另一半是所有活性蛋白质编码基因所在的位置,以及所有活性非编码基因所在的位置。那么,它有什么作用呢?它有一长串监管功能,但我将其简化为三个。
它的功能之一是染色体维护。因此,这些是 DNA 复制发生的地方。它们是我们基因组中负责将其折叠起来的位点,因为它是一种 2 米长的聚合物。它必须折叠成几微米直径的核。
第二个调控区域是所有这些负责基因调控的东西。可能更多的基因组指定基因表达的调控特征,而不是指定基因本身。那是因为每个细胞对每个基因使用不同的调节区域。
HANNE:这太有趣了,在我看来,这听起来有点像壁橱,上面有架子,里面放着我们需要在壁橱里放一会儿的东西,然后是基础设施壁橱。
为什么如此重视这一点很重要?因为那里发生了超过 75% 的与疾病相关的遗传变异。
瑞克:是的。基本上,您拥有的是每个细胞中的一组通用基因,包括编码和非编码。你有元素,你有只在特定细胞类型中运行的实际序列。所以你对任何一个细胞进行编程的目标是使用特定的序列集,将每一个常见的基因集调整到你想要的水平。所以你正在演奏一种由 20,000 个蛋白质编码基因和大约相同数量的非编码基因组成的令人惊叹的乐器。你正在通过特定的序列来做到这一点。我们的问题是我们实际上并不了解该程序。
梳理监管计划
HANNE:那你是怎么开始怀疑的呢?当您开始尝试理解此程序时,您会遵循哪些提示?
RICK:提示是细胞中每个基因的调控区域会显示它们自己。他们告诉你。你可以使用各种技术快速告诉你在整个基因组中,在特定细胞类型中,比如在运动神经元中,该细胞中的所有调节区域是什么。您甚至可以查看为每个基因设置变阻器的位置。这就是快速测序为我们提供了同时推断基因的所有活性元素的能力,包括特定细胞类型基因组中的编码和非编码元素。
我们目前的问题是你必须一次做几乎一种细胞类型,而我们有很多很多的细胞类型。有时很难在不污染其他细胞的情况下真正看到特定细胞,因为我们所有的组织实际上都是多种细胞类型的组合。
豪尔赫:如果我们说每个细胞都有完整的基因组,每个细胞都有完整的歌本,特定的细胞类型选择演奏特定的交响乐,而帮助调节基因组的机器本质上是管弦乐队?那个机器是指挥器,它决定播放什么歌曲、敲什么音符、敲什么音量、什么速度等等。这是理解基因组调节功能的合理类比吗?
RICK:从某种意义上说,很容易看出输出会是什么。但更具挑战性的是,谁写了所有的笔记?谁是作曲家把所有这些音符放在那里,并把它做好了?事实证明,对于我们的大多数细胞和大多数基因来说,作曲家是这些称为转录因子的蛋白质分子,其工作是与基因的调节元件结合,并为它们提供一个变阻器设置。
现在,这有一个有趣的问题,因为在那些转录因子结合的位点,我们称它们为增强子。在那些增强子位点上,总有一个 RNA 是从它们结合的那个位点产生的。我们直到最近才了解到 RNA 在调节中起着重要作用。只是为了放大这一点:你的 iPhone 识别你的脸的方式是因为控制颅面结构基因的增强剂因人而异。
你现在在这里拥有的是这个三驾马车。你有DNA序列。它被组成分子,转录因子特异性识别,但它需要第三部分,这个RNA分子。因此,DNA、RNA 和蛋白质实际上在这些调节区域协同工作。为什么如此重视这一点很重要?因为那里发生了超过 75% 的与疾病相关的遗传变异。
HANNE:不要在音乐上太书呆子,但它听起来几乎像一个和弦,对吧?三音符结构一起演奏以创造更大的东西。
里克:没错。
程序员
豪尔赫:生物学最前沿的领域之一是我们越来越有能力尝试理解细胞程序如何确定、细胞命运如何确定的一些支配法则。对我来说,我们理解的一个令人着迷的飞跃来自于山中所做的工作,他因此获得了诺贝尔奖,证明你可以通过将细胞暴露于极少数特定的转录因子来重新编程细胞类型。
HANNE:你能描述一下为什么它是该领域的重大突破吗?
里克:我在那部电影中扮演了一个小角色。事实证明,尽管这是一个非常大的数字,但少数转录因子可以识别出对该细胞身份至关重要的所有调控元件。山中向我们证明了这一点,他向我们证明了这些因子中只有四个可用于将任何人类细胞或任何雄性细胞编程为相当于胚胎干细胞的细胞。
考虑这一点的一种方法是,如果歌曲太糟糕,有机体就无法生存。但如果它只是有点偏离,你长大了,你变成了一个成年人,然后随着年龄的增长你会患上所有这些各种疾病。
豪尔赫:这太神奇了,对吧?因为这表明该系统是以某种方式设计的,其中令人难以置信的复杂性来自于听起来很简单的东西。四种转录因子决定了控制不同细胞类型的所有复杂级联事件。
您所做的一些工作已经证明,这些主转录因子基本上建立了控制细胞建立和维持其状态所必需的基因的等效电路。你能描述一下你所说的基因控制电路是什么意思吗?
RICK:基因控制电路有两个很酷的元素。一个是,当主调节器发现这些增强子并导致其目标基因的表达时,那是电路的一部分,那是输出。另一个很酷的元素是主转录因子也调节它们自己的表达。所以有一个反馈循环。就像,你会有一个电子图,你让主人控制他们自己的基因表达,然后结合并控制一组目标基因的表达。
豪尔赫:这很疯狂。这几乎就像一个循环参考,其中转录因子是蛋白质,蛋白质是由 DNA 制成的,编码在基因中。转录因子是帮助基因转录表达的机制的一部分。因此,您是在说转录因子——蛋白质——帮助调节产生转录因子的基因的表达。
汉内:是的。你知道,所有这些小细胞的整个交响乐都有一个心理形象,唱出所有这些不同的纹理。
调控基因组和疾病
HANNE:当我们开始了解这一切如何运作时,它会发生什么变化?我们可以用这些知识做什么?
RICK:这些主要转录因子驱动每个细胞身份的这些位点是导致疾病的大多数人类变异的地方。超过 75% 的疾病相关变异发生在这些驱动关键基因的增强子元件中。
豪尔赫:好的。所以这很疯狂,对吧?当我们想到引起或促成疾病的突变时,我们通常会想到发生在基因内的突变,它影响蛋白质,以某种方式破坏蛋白质,从而导致疾病。
汉内:对。
JORGE:但你是说,在 75% 的情况下,突变实际上发生在基因之外,它发生在基因组的这个非编码区域。如果基因就是歌曲,并不是歌曲播放错误,而是它可能播放得太响、或太软、或太慢或太快,但这正是导致很多疾病的原因。
RICK:事实上,一种思考方式是,如果歌曲太糟糕,有机体就无法生存。但如果它只是有点偏离,你长大了,你变成了一个成年人,然后随着年龄的增长你会患上所有这些各种疾病。
第一次,我们拥有所有这些模型,用于您如何设置设备并使其工作。
JORGE:不是制造了错误的基因版本,而是获得了错误的基因剂量。太多或太少。
里克:没错。你如何找到解决这个问题的疗法?你如何选择性地调高或调低基因?原则上,我们可以通过很多方式做到这一点,我们可以通过基因治疗做到这一点。我们可以通过 CRISPR 基因编辑来做到这一点。但我认为我们在过去几年中发现的最重要的事情是,这些基因调控元件中的每一个都有一个 RNA。 RNA是有功能的。这是一个变阻器,有助于调整该基因的输出。现在有很多方法可以给RNA 用药。我们有ASO (反义寡核苷酸),例如用于治疗脊髓性肌肉萎缩症的 Spiraza。我们有 RNA 干扰。我们有一些新的小分子药物即将出现。如果你现在可以考虑编程一种药物的方法,一种合成的 RNA,来调节调节 RNA,调节 RNA,你就有了调整任何细胞中任何一个基因的主要方法,该细胞可以访问该药物。
HANNE:所以这不仅仅是对疾病如何出现的完全不同的理解。但这是对我们如何治疗疾病的完全不同的理解。
里克:没错。原则上,我们现在有一种可编程的方式来开发一种可以调节任何一个感兴趣的基因的药物。此时此刻,人们只是简单地对合成 RNA 分子进行编程,以生产针对这种流行病的疫苗。一种与您对疫苗的期望一样好的结果。
JORGE:当我们考虑技术在生物学中的应用时,我们通常会尝试做两件事中的一件。我们要么试图深入探究生物学并理解它,提高其复杂性,要么我们正试图进行干预。我们越来越能够在非常非常深的层面上探究生物学,因此我们可以通过细胞的调节方式来了解管理规律或规则。我们有这个,我们有越来越复杂的工具,比如这些 可编程的医学模式,我们可以非常非常具体地靶向 RNA。这将是一种在我们审问生物学的能力和以越来越复杂的方式进行干预之间的良性循环。我认为这是我们今天在这个领域发现自己最令人兴奋的方面之一。
里克:我同意你的看法。我们现在正在对多层复杂性进行如此深入的了解,以至于我们可以提出我们以前从未见过的治疗假设。我们可以以几年前从未想过的速度完成它们。一项基本发现与 10 年前进入人们的治疗之间的时间距离平均为 14 年。现在,可以考虑开发一种基于基础科学的治疗假说,以及一种在九个月内到达患者的治疗方法。我们通过这种新疫苗看到了这一点。
HANNE:因此,不仅要改变我们对新出现疾病的理解、治疗方式,还要改变我们从事科学本身的方式,以及科学能够以多快的速度发生并转化为患者的临床现实。
RNA作为分隔物
里克:没错。但现在锦上添花,因为传统上,我们从两个方面考虑药理学。一是药物对个体的影响。另一个是个体对药物的影响。在后一部分中,您担心药物的分布,它去往哪些组织,哪些组织不可用。因为我们只是假设一旦药物进入细胞,它就会扩散通过细胞并找到它的目标。我们有膜结合的隔间,我们已经知道了一个世纪。
JORGE:这一直是细胞渗透性的问题,对吧?能过膜吗?
瑞克:是的。它可以穿过膜吗?它是否进入细胞核?但我们只是在过去十年中才了解到,细胞中也有许多称为生物分子凝聚体的非膜体,因为人们认为这些体形成的一个原因是它们像水凝结成露珠一样凝结。但这种理解如此深刻的是,这些凝聚物将蛋白质、DNA、RNA 划分为特定功能。所以现在我们已经明白,你可以将一个细胞中的 5 到 100 亿个蛋白质和 RNA 分子分离到不同的隔间中,在那里它们与它们的伙伴一起发挥作用。
汉内:嗯。
JORGE:我们是在离开生物学领域,进入物理学领域吗?
RICK:我们正是这样做的,因为相分离被认为是驱动力。那是用数学描述的物理现象。
汉内:哇。
里克:现在,我们了解到最有效的化疗药物都集中在目标所在的隔间内。它们的浓度是细胞其余部分的 600 倍,因此它们对癌基因的靶向活性是我们预期的 600 倍。这不仅告诉我们有全新的见解对未来的药物发现和开发很重要,而且让我们想要更好地了解这些冷凝物的作用。
这就是我所说的锦上添花的意思。我们已经意识到,这些以如此重要的方式使细胞功能化的冷凝隔室受到 RNA 的调节。 RNA可以刺激它们的形成。如果产生过多的 RNA,则将变阻器调至 11,它会溶解冷凝物。因此,突然间,我们意识到细胞内任何位点的 RNA 输出都可以通过增强或溶解发生该功能的那些凝聚物来调节任何功能。这就是,我认为,意义深远,因为这是另一种可编程的 RNA,一种合成的 RNA 分子,可以用来调节功能失调的细胞的功能。第一次,我们拥有所有这些模型,用于您如何设置设备并使其工作。
HANNE:另一个旋钮。
里克:但是你怎么把它关掉呢?事实证明,当你制造出这么长的 RNA 时,它只是一大串负电荷,它会溶解冷凝物并关闭基因。这就是基因被调控的方式。你用 RNA 调整凝聚物,然后用基因完全转录时产生的 RNA 产物将其关闭。
汉尼:超级酷。所以一个开关,真的。
RICK:这是一个没有人预料到的开关。这再次意味着,如果你有一种可编程药物,你就有了一种针对功能失调的细胞功能的新方法,一种治疗问题的新解决方案。
JORGE:一个人的垃圾 DNA 是另一个人复杂的基因组调控机制。
汉恩:或者每个人的。
The Glittering Treasure in Your Genome’s Junk的帖子首先出现在Future上。
原文: https://future.com/the-glittering-treasure-in-your-genomes-junk/