一种产生粘蛋白功能的基因进化机制

  • 首页
  • KSP中文网
  • 领取MOLI红包
    栏目分类
    KSP中文网
    KSP中文网
    你的位置:SLERF 中文站 > KSP中文网 > 一种产生粘蛋白功能的基因进化机制
    一种产生粘蛋白功能的基因进化机制
    发布日期:2025-01-04 11:40    点击次数:95
      摘要新的基因功能如何进化是生物学中的一个基本问题。粘蛋白是一组功能上但不进化的蛋白质,可以用来研究基因功能的聚合进化。通过分析哺乳动物基因组中粘蛋白的基因组变异,我们认为外显子重复序列及其拷贝数的变化对新基因功能的从头进化起着重要作用。通过整合生物信息学、系统发生学、蛋白质组学和免疫组化方法,我们确定了15个未描述的进化收敛实例,其中新的粘蛋白是通过获得密集的O-糖基化的外显子重复结构域而产生的。我们的研究结果表明富含脯氨酸的分泌蛋白是获得粘蛋白功能的天然前体。我们的发现对于理解外显子重复序列在新基因功能的平行进化中的作用,特别是那些涉及蛋白质糖基化的功能具有广泛的意义。简介平行独立进化导致相似的遗传变异已经被讨论为对适应压力的收敛反应的共同驱动力(1).这条线索令人兴奋,因为平行进化的实例提供了一个自然的框架来研究选择和突变限制对基因组变异的相对贡献。最近的研究提供了证据表明平行进化在生命的所有分支中普遍存在(2).相当多的平行进化案例涉及到重复的结构变异,这些变异源于基因家族的收敛扩张,作为对类似适应压力的反应。例如,在食用富含淀粉的食物的动物中,淀粉酶基因重复出现(三),先天免疫系统蛋白质的反复突变(4)咖啡和茶树中咖啡因合成的物种特异性基因复制(5)以及爬行动物通过基因复制进化出的毒液(6)还有哺乳动物(7).最近的研究表明,粘蛋白基因是根据其功能而不是进化的共同性来分组的,可能特别容易出现收敛进化(8,9).粘蛋白是一组具有功能特性的糖蛋白,由富含脯氨酸(P)、苏氨酸(T)和丝氨酸(S)的O-连接糖基化位点的存在来定义(10)被称为PTS重复。从功能上讲,粘蛋白在介导上皮细胞间的信号传递、形成粘液层以润滑各种器官以及在提供保护屏障以抵御环境伤害方面起着至关重要的作用(11).此外,粘蛋白与共生微生物和病原微生物形成界面,从而有助于生理微生物区系的定殖和宿主对病原体的防御(12).在与疾病相关的背景下,粘蛋白已被证明在囊性纤维化的病理学中起作用(13)以及其他肺部疾病(14)以及各种恶性肿瘤(15).尽管人们对粘蛋白的功能和生物医学方面的兴趣越来越广泛(16)粘蛋白基因的进化还没有很好的了解。大多数功能相似的基因都来自于一个共同的祖先基因的复制(17).他们血统相同。然而,人类基因组中的粘蛋白基因并不都有共同的祖先。相反,大多数在人类中具有良好粘蛋白功能的基因属于两个基因家族:分泌型凝胶形成粘蛋白和可能独立进化的膜结合粘蛋白(8).其他粘蛋白(7号MUC7,MUC22型,和MUC16)不属于这两个主要家庭,被德克尔和同事们称为“孤儿”(8)因为它们与其他基因(包括其他粘蛋白)没有明显的同源性。两个进化上不同的粘蛋白基因家族的存在,以及人类基因组中分散的孤儿粘蛋白的存在,表明粘蛋白功能的周期性、谱系特异性进化可能是这一功能同源但基因异质的基因群中普遍存在的进化现象。因此,粘蛋白为研究特定基因功能的独立进化提供了一个很好的模型,有助于揭示非服务序列的功能潜力。本研究通过研究哺乳动物粘蛋白基因的进化,提出了一种新基因功能生成的进化模型,尤其是糖基化功能。结果与讨论SCPP位点从头粘蛋白进化的多个实例为了建立研究粘蛋白进化的基础,我们构建了一种简单但保守的生物信息学方法,通过搜索可用的基因注释来识别给定基因组中潜在的粘蛋白基因,并通过验证富含脯氨酸(P)、苏氨酸(T)的外显子重复序列来确认粘蛋白功能,以及丝氨酸氨基酸。利用这种方法,我们在人类、小鼠、奶牛和雪貂的基因组中寻找粘蛋白基因。这些基因组可作为染色体水平的组合体使用,可以作为灵长类、啮齿动物、有蹄类和食肉动物的代表。我们发现,大多数粘蛋白在这些哺乳动物的基因组中是祖先共享的(图1).然而,我们也在每一物种中检测到至少一个谱系特异性粘蛋白基因(表S1)。例如,我们发现MUC22型仅在人类基因组中,在小鼠、奶牛或雪貂的参考基因组中没有同源序列。更值得注意的是,雪貂基因组中有六种独特的粘蛋白基因,而这些粘蛋白基因在其他基因组中并不存在。不涉及新功能化的从头基因功能的进化是罕见的(18).因此,我们严格的研究发现了多个谱系特异性粘蛋白,而这些粘蛋白并非全基因复制的结果,这一事实出乎意料。图1一些哺乳动物中新的和先前已知的粘蛋白基因。左边的系统发育描述了这里分析的物种[人类(hg38)、小鼠(mm10)、奶牛(bosTau9)和雪貂(musFur1)]之间的关系。染色体组型示意图显示了每种含有粘蛋白基因的染色体。粘蛋白基因的位置显示在每条染色体上。四个基因组中同源的祖先粘蛋白基因用蓝色字体表示。谱系特异性粘蛋白以绿色字体表示。在SCPP基因家族中发现的粘蛋白基因,除了7号MUC7,是血统特定的用粉红色字体表示。注:有些同源基因在不同物种中有不同的名称。例如啮齿动物Muc3与人类同源吗MUC17号对于这些基因,我们在官方基因注释后的括号中根据序列相似性和同源性,指出了可能的人类同源基因的名称。在雪貂身上,进行假定染色体数目的“S”表示粘蛋白基因在哪个Hi-C支架上被发现。在查看器中打开我们发现四种雪貂特异性粘蛋白定位于分泌性钙结合磷蛋白(SCPP)位点(在人类中与CSN1s1在5'端名称在3'端)。这个基因座还含有我们在奶牛参考基因组中鉴定出的另一种谱系特异性粘蛋白。最后但并非最不重要的是唾液7号MUC7基因及其功能对应物,Muc10型在小鼠中,两者都位于SCPP位点。SCPP基因中谱系特异性粘蛋白的多次出现促使我们通过关注SCPP基因座和包括其他哺乳动物物种来扩展我们的研究。SCPP基因座中的孤儿粘蛋白基因是独立进化的SCPP基因座内的基因进化已经在钙结合蛋白的背景下进行了讨论,钙结合蛋白对骨骼和牙齿的矿化以及牛奶和唾液中的主要蛋白质成分非常重要(19).此外,该位点被强调为“序列保守的曙光区”的一个主要例子(20)其中谱系特异性适应性进化导致非服务序列变异,同时保留重要功能。与本研究最相关的是,这个基因座含有多个谱系特异的孤儿粘蛋白。如前所述,孤儿粘蛋白是那些不属于已知的粘蛋白基因家族的粘蛋白,而谱系特异性粘蛋白是那些只在哺乳动物系统发育的特定分支中进化出来的粘蛋白。一个谱系特异性粘蛋白进化的一个机制是通过另一个粘蛋白的整个基因复制。在这种情况下,我们期望祖先和复制的粘蛋白基因共享序列相似性并形成一个基因家族。考虑到孤儿粘蛋白并不表现出与其他粘蛋白的序列相似性,我们假设谱系特异性孤儿粘蛋白通过一种机制而不是整个基因复制来进化。因此,我们研究了49个哺乳动物参考基因组中SCPP基因座内粘蛋白功能域的存在(图S1;详见材料和方法)。接下来,我们结合基于BLAST的序列相似性和人工验证哺乳动物之间的基因同步性来搜索这些基因的同源序列(见资料和方法)。利用这种方法,我们确定了SCPP基因座中28个假定的粘蛋白基因,它们只出现在某些哺乳动物谱系中,而不出现在其他哺乳动物谱系中(表S1)。此外,我们确定了15个独立的谱系特异性事件,解释了SCPP基因座内所有28个粘蛋白的起源(图S2)。所有这些假定的谱系特异性粘蛋白基因都是在一个由CSN3和AMTN公司基因。这两个基因在所有哺乳动物中都是保守的,为我们的研究提供了强有力的定位锚定,标记了一个相对较短的片段,范围从~250到300kb,具体取决于物种。接下来,我们询问我们确定的假定粘蛋白基因是否编码具有功能性粘蛋白特性的蛋白质(图2A).为了研究这个问题,我们首先分析了这些基因的蛋白质产物中苏氨酸(T)和丝氨酸(S)的百分比(图2B).这些氨基酸特别重要,因为它们作为O-聚糖的锚定位点,而O-聚糖是粘蛋白功能的标志(21).我们的分析表明,大多数由SCPP基因编码的蛋白质具有大约10%的T和S含量,与来源物种无关。相比之下,MUC7是一种在人类中被很好描述的粘蛋白(22),在其存在的所有物种中至少有20%的T和S含量。我们在SCPP位点发现的谱系特异性假定粘蛋白含有显著高于来自该位点非mucin基因的蛋白质的T和S氨基酸百分比(Wilcoxon检验;P<6.811×10?10).此外,我们发现TS丰富度(T和S占给定蛋白质氨基酸总量的百分比)与预测的O-糖基化位点的数量相关(图2C).总之,分析支持已识别的基因编码具有粘蛋白特性的蛋白质(图S3)。图2根据苏氨酸(T)和丝氨酸(S)丰度和O-糖基化潜力验证假定谱系特异性粘蛋白的粘蛋白功能。(A)哺乳动物粘蛋白的简化模型。(B)盒形图表示不同种类SCPP基因编码的蛋白质的总氨基酸序列中T和S氨基酸的百分比。蛋白质分为组织素(HTN1和HTN3)、statherin(STATH)、颌下腺雄激素调节蛋白(SMR3A和SMR3B)、富含脯氨酸、泪腺1(PROL1)、粘蛋白7(MUC7)和谱系特异性粘蛋白。这个是的轴显示T和S氨基酸占构成蛋白质的所有氨基酸的百分比。每个物种的单个蛋白质用圆点表示,其直径与蛋白质长度相对应。方块表示人类蛋白质。这两个省略号突出显示SMR3A、SMR3B和PROL1蛋白的T和S百分比异常高的物种案例。进一步的分析表明,这些蛋白质获得了谱系特异的粘蛋白样重复结构域。(C)比较谱系特异性粘蛋白与代表性人类粘蛋白的散点图(8)(棕色)、哺乳动物MUC7蛋白(蓝色)和人类SCPP位点蛋白(灰色)作为比较。这个是的轴代表TS的丰富性十axis是全长蛋白质序列中预测的O-糖基化位点(如SPRINT-Gly预测的)的百分比。谱系特异性粘蛋白以粉红色圆点表示。图中包含大多数蛋白质和粘蛋白的区域用相应的颜色标出,并用箭头标记。圆点的大小表示蛋白质的长度,框内的圆点对应于人类蛋白质。扩展以获取更多在查看器中打开Muc10型作为从头粘蛋白进化的一个例子对SCPP基因座中的多个新粘蛋白基因的鉴定为解决这些基因是否在基因复制后通过新功能化进化的问题提供了一个独特的机会(17),作为来自非编码序列的新基因(23–25)或者通过其他机制(图3A).两种唾液粘液的进化史,7号MUC7人类和Muc10型在老鼠和老鼠身上,可以让我们更深入地了解这些问题。7号MUC7在人类的颌下腺和舌下唾液腺中大量表达(26)以及非人灵长类动物的唾液(27)大多数胎盘哺乳动物都有(28).但是7号MUC7在大鼠和小鼠的基因组中没有基因(28).尽管没有MUC7,但小鼠唾液中含有大量的MUC10,这是一种类似的小尺寸,但不同的粘蛋白蛋白(29).MUC10的进化史尚不清楚。图3一种富含脯氨酸的蛋白质已经进化成唾液粘液。(A)在我们的审问过程中,我们考虑了一些看似合理的进化机制:基因复制,基因组中已经重复的非编码区编码序列的进化,以及从现有蛋白质中获得重复序列。(B)PROL1(顶部)具有丰富的外显子PTS重复序列,因此在小鼠和大鼠(底部)中具有潜在的粘蛋白功能(粘蛋白化)。左边的系统发育图代表了为构建图中所示的排列而调查的物种(灵长类:人类、黑猩猩、恒河猴和绿猴;啮齿动物:老鼠和老鼠)。在Muc10型基因由序列比对下方的蓝色框指定,PTS丰富度用蓝色阴影表示。系统进化树中的红点表示粘液功能可能进化的谱系位置。(C)两种情况Muc10型可以在老鼠身上获得唾液表达。(D)MUC7在人(左)和MUC10在小鼠(右)舌下腺和颌下腺的免疫荧光定位。每个面板的左侧图像显示MUC7或MUC10(绿色)、MUC5B(红色)和E-cadherin(蓝色)免疫染色。人像右侧显示的是同一腺体区域的分界区域(虚线正方形)的放大视图。小鼠腺体的右侧图像显示相同的图像,没有钙粘蛋白(蓝色)免疫染色以清晰显示。扩展以获取更多在查看器中打开我们总结了粘蛋白进化的潜在模型(图3A),我们首先问Muc10型是最近一次复制事件的产物7号Muc7.7号Muc7和Muc10型是合成的,在这个意义上,它们位于SCPP位点的两侧Amtn公司基因在3′侧。如果Muc10型通过复制7号Muc7,我们期望在这些基因之间找到显著的序列同源性。我们没有发现这种同源性,因此拒绝了新功能化7号Muc7复制作为进化的一种机制Muc10型相反,我们发现小鼠和大鼠的5′和3′断面Muc10型与灵长类动物有同源性序言1序列(图3B).在人类和其他灵长类动物中序言1基因侧翼7号MUC7在其5′侧,但该蛋白缺乏粘蛋白特有的PTS重复序列,主要在泪腺中表达(30)只是在唾液里(26).因此,最有可能的情况是序言1植入了新的粘蛋白基因Muc10型通过获得PTS重复序列在大鼠和小鼠的谱系中(图3A在这些啮齿动物的唾液腺中大量表达。我们首先通过人工将人PROL1与小鼠和大鼠MUC10进行比对来验证这一假设(序言1基因)肽序列分析表明,这些蛋白在5′端和3′端具有约60%和33%的同源性,前者与信号肽相对应(图3B).同源性并不延伸到MUC10蛋白的中间区域,它至少有9个重复序列,39个碱基对(bp)(13个氨基酸)的长度大约彼此相同85%。这些外显子重复不存在于任何灵长类PROL1蛋白中(图3B).进一步研究表明,这些重复序列富含T和S氨基酸(图2B)为确保观察结果的有效性,我们对小鼠和大鼠PROL1的重复片段进行了扩增和测序序言1从小鼠样本(C57BL/6J株)中提取。这个重复序列与小鼠参考基因组序列(序列文件S1)完全一致,但在非啮齿类动物基因组中没有同源序列,这进一步支持了这些重复序列是在小鼠和大鼠的祖先中获得的。在获得粘蛋白功能的同时,同源基因的组织表达模式也发生了显著的变化序言1和Muc10型基因。特别是,PROL1主要在人类的泪腺中表达,而在其他组织中几乎没有表达。相比之下,小鼠和大鼠的MUC10在唾液中大量表达(31)在泪腺中几乎没有表达(32).似乎调节Muc10型在老鼠和老鼠的祖先身上,已经进化成获得强大的唾液腺特异性表达。解释Muc10型在老鼠身上,我们考虑了两种情况(图3C).首先,这是合理的Muc10型,从序言1前体,可能已经采用了7号MUC7在老鼠和老鼠的血统中消失之后。在这种情况下,我们期望7号MUC7人类和Muc10型在老鼠身上也很相似。第二,有可能Muc10型在老鼠和老鼠的谱系中独立进化,导致了不同于人类的表达趋势7号MUC7为了区分这两种情况,我们分别对小鼠和人类唾液腺组织中的MUC10和MUC7进行免疫组化染色(图3D).与以前的研究一致(31),我们发现MUC10在小鼠中只在颌下腺中表达,而在人类中MUC7在颌下腺和舌下腺都有表达。此外,虽然MUC10在小鼠颌下腺的所有细胞类型中都表达,但MUC7是由腺体内的特定细胞群表达的。总的来说,在组织和细胞水平上,MUC10和MUC7的表达模式是不同的,这表明Muc10型调控机制很可能是在老鼠谱系中独立进化的。谱系特异性粘蛋白从富含脯氨酸的前体进化而来根据序言1到Muc10型在啮齿动物谱系的转变中,我们假设其他新的粘蛋白可能也从富含脯氨酸的蛋白质进化而来。具体来说,我们对三种基因感兴趣,即。,序言1(最近打过电话OPRPN),SMR3A型(之前序言5),和SMR3B型(之前序言3)它们在SCPP基因座上彼此相邻,并且可能在血统上是相同的。为了检测这些基因是否构成新粘蛋白的前体,我们在这三种蛋白和新鉴定的28种谱系特异性粘蛋白之间寻找序列同源性。我们在近缘物种中发现了至少5个与富含脯氨酸的非糜烂蛋白序列相似的谱系特异性粘蛋白(图4,图S4和表S1)。我们还发现,它们保留了来自其前体的信号肽(60%到84%的氨基酸同源性),但以谱系特异的方式进化出富含TS的重复序列(图4).例如,与小鼠和大鼠相似,犀牛体内的PROL1的T和S氨基酸含量显著高于其他物种(Wilcoxon检验;P<0.002198)(图2B).然而,犀牛中的PROL1和小鼠和大鼠谱系中的MUC10几乎没有序列同源性,这表明这些蛋白质中的T和S丰富度不太可能通过血统相同。新基因功能的出现通常被认为是一种罕见的现象。因此,值得注意的是,在犀牛和老鼠这两个遥远的哺乳动物谱系中,进化从同一个祖先基因中产生了一个新的粘蛋白基因,序言1这些观察结果与进化情景一致,即祖先分泌富含脯氨酸的蛋白质PROL1,在两个不同的谱系中独立获得粘蛋白功能,而不是通过全基因复制或非编码序列的从头基因进化后的新功能化。图4从富含脯氨酸的蛋白质中进化出谱系特异性粘蛋白(粘蛋白化)。三个谱系特异性粘液化事件的例子。系统发育中可能发生粘液化的分支用红点表示。同源区域用直线和BLAST表示e提供值。一个非粘液前体蛋白(顶部)如何产生其同源粘蛋白(底部)的拟议机制示意性地展示在三个例子中,即犀牛(rhino)、猫和牛(由系统发育学上的星星表示)。外显子重复用小方框表示。重复次数和每次重复的核苷酸数用粗体显示在指定的重复部分下面。蓝色强度表示近似PTS丰富度。在查看器中打开我们的观察为未来的研究提供了几个途径。例如,我们在穿山甲基因组中发现了两种与人类同源的新粘蛋白序言1和SMR3A/B型这些基因分别在穿山甲中获得了丰富的外显子T-和S-重复序列(图S4)。这是一个有趣的观察,因为这些谱系特异的粘蛋白可能导致了穿山甲唾液不同寻常的粘性,这一特性很可能是为了适应这种动物的食虫习性而选择的(33).因此,我们的研究结果表明,粘蛋白基因的进化重复使用了我们为小鼠和大鼠谱系中MUC10进化所概述的机制,其中富含T和S的外显子重复序列是由一种分泌的富含脯氨酸的蛋白质获得的(图3A).总之,我们认为SCPP位点富含脯氨酸的分泌蛋白的存在促进了粘蛋白的进化。粘蛋白外显子重复序列的快速进化在我们之前的分析中7号Muc7在哺乳动物中,我们发现它的外显子重复序列保留了它们的T和S含量,但在物种内部和物种间的拷贝数上有很大差异(28).我们的结果7号Muc7与基因组中的其他外显子重复序列形成鲜明对比,后者出现在所有蛋白质编码基因的10%以上,并且通常在核苷酸和拷贝数水平上高度保守(34,35).在这些结果的基础上,我们假设粘蛋白的外显子重复序列在拷贝数上是不同的,作为对包括饮食和致病性变化在内的各种选择压力调节粘蛋白整体糖基化的反应。如果这个假设是真的,我们预计我们将观察到物种间粘蛋白重复序列的拷贝数变化水平相当大,并且单个重复序列的T和S含量将随着进化时间的推移而保持不变。我们首次研究了哺乳动物之间粘蛋白重复序列的拷贝数变异(图4以及表S1)。我们发现粘蛋白重复序列的数量基本上是从seal中的3个开始Muc19号-喜欢食肉动物到42岁Muc2-like/Smr3a型独立于重复的长度(图S5)或拷贝数改变的机制(图S6)。此外,我们有几个例子,某些重复序列的拷贝数变异是以特定物种的方式进化的。例如,我们发现老鼠和老鼠个体重复出现的最大似然树Muc10型可以高置信度地将每个物种的重复序列分成不同的簇(图S6)。这一发现表明,在小鼠和大鼠谱系中,外显子重复拷贝数的独立扩张。我们以前报道过灵长类动物MUC7的谱系特异性拷贝数的增加和丢失(28).总的来说,我们观察到的外显子粘蛋白重复序列的拷贝数变化与我们上面描述的适应性假设是一致的。接下来,我们研究了我们的第二个期望,即粘蛋白外显子重复序列的T和S含量在进化过程中保持不变。我们专注于Muc10型啮齿动物和粘液样在猫科动物中,个体重复单位的合理排列是可能的。通过测量重复单元间同义和非同义核苷酸差异的数量,我们观察到与T和S氨基酸相关的非同义变化发生的频率低于基于同义变化数量的预期(R2<0.15;图S7)。这一发现表明,重复的T和S含量保持在相似的水平,并不遵循中性预期。对于T和S以外的氨基酸,我们观察到非同义差异的预期中性比率(R2>0.65;图S7)。总的来说,例如7号Muc7(28),Muc10型,和粘液样外显子重复序列、粘蛋白重复序列自适应地保留了它们的T和S氨基酸含量,表明谱系特异性粘蛋白在选择性限制下进化以保留O-糖基化。谱系特异性粘蛋白参与哺乳动物唾液糖蛋白组的变异以前对粘蛋白的研究,主要是在人类身上,把粘蛋白分为膜结合的或分泌的(36,37).鉴于SCPP基因家族主要由编码分泌蛋白的基因组成,我们假设在这个位点进化的谱系特异性粘蛋白也将具有分泌特性。我们对这一假设进行了生物信息学检验,发现所有新的谱系特异性粘蛋白都被预测分泌(见材料和方法;表S1)。此外,我们在任何谱系特异性粘蛋白中都没有发现跨膜结构域,这支持它们可能是分泌蛋白。我们验证了以前的工作(26)显示SCPP粘蛋白,7号MUC7和Muc10型,分别在人和小鼠的唾液腺中大量特异性表达(图3D).因此,我们研究了唾液腺中是否也表达其他谱系特异性粘蛋白。除了人类中的MUC7和小鼠中的MUC10外,由于缺乏商业上可获得的经验证的抗体,很难对谱系特异性粘蛋白进行免疫组化或Western blot分析。然而,尽管来自唾液腺的跨物种表达数据有限,但我们能够检测到一些谱系特异性粘蛋白的唾液腺表达,包括蝙蝠类粘液,奶牛粘液样还有穿山甲新基因_9802,使用可用的RNA测序(RNA-seq)数据(图S4和S8)。为了进一步研究粘蛋白基因在唾液中的表达,我们对人类、小鼠、大鼠、猪、牛、狗和雪貂的整个唾液进行了液相色谱-质谱(LC-MS)分析(见材料和方法;图5A).除了已知在唾液中表达的粘蛋白,如MUC5b、MUC7、MUC19和MUC10,我们还发现了一些先前已知的唾液中未表达的粘蛋白,如MUC4、MUC21、MUC13、MUC2和MUC16(图5A).此外,我们还发现狗、雪貂和奶牛的唾液中有8种分泌特定的粘液(图5,A和B,以及表S2)。图5不同哺乳动物唾液粘蛋白的比较。(A)不同哺乳动物全唾液粘蛋白的液相色谱-质谱分析。以前不知道唾液中表达的粘蛋白是在深蓝色的盒子里着色的。在这项研究中确定的谱系特异性粘蛋白是洋红色的盒子。灰色框表示粘液蛋白具有先前已知的唾液表达,而浅灰色表示该基因存在于物种基因组中,而唾液中未检测到表达。空盒子表明该物种没有相应的基因。基因注释由各自的装配体提供。用星号表示的较长基因名被缩短(PROGLY:蛋白多糖样;MUC2:MUC2-样;MUC5AC:MUC5AC-样;MUCC.1:MUCC.1-样)。(B)(A)中数据的图形表示,以表示人类、小鼠、大鼠、狗、雪貂、牛和猪(洋红色矩形)的全唾液(WS)中表达的粘蛋白的总数。在SCPP基因座内发现的谱系特异性粘蛋白用黑色边界表示。(C)以上哺乳动物的全部唾液经SDS-PAGE分离,用周期酸-希夫染色显示糖基化蛋白。用LC-MS分析的凝胶带被圈出。灰色圆圈表示粘蛋白无法识别的带。凝胶通道下方的垂直横幅显示已识别的粘蛋白,其数量与凝胶中的条带相对应。洋红色的高光表示谱系特异的孤儿粘蛋白,而蓝色的高光则表示已知的粘液蛋白,这些蛋白以前在唾液中没有被鉴定出来。分子量,分子量。扩展以获取更多在查看器中打开为了实验验证在序列水平观察到的谱系特异性粘蛋白中T和S氨基酸的保留是否转化为蛋白质糖基化,我们进行了基于tris醋酸盐的SDS-聚丙烯酰胺凝胶电泳(PAGE)分离唾液蛋白,然后进行周期性酸-希夫(PAS)染色,它揭示了糖基化蛋白质(见材料和方法;图5C) (27,29).通过比较猪、牛、雪貂、狗、大鼠、小鼠和人类唾液蛋白质的电泳带型,我们检测到受试物种之间的糖基化蛋白带具有高度的多样性。为了在氨基酸序列水平上确认强染色带代表粘蛋白,我们分别切除PAS染色带并进行质谱分析(见材料和方法;图5C).我们能够证实LC-MS鉴定的大多数粘蛋白在唾液中的大量表达(图5C和表S2)。在谱系特异性粘蛋白中,除了MUC7和MUC10,我们可以在狗和雪貂的唾液中识别出SMR3A,狗唾液中的蛋白多糖样蛋白,以及雪貂唾液中的MUC5AC-like,这些蛋白可能是糖基化的生物信息学预测。SDS-PAGE分析的一个意外但有趣的结果是哺乳动物唾液样本中糖基化蛋白含量的高度变异。我们目前的方法在区分粘蛋白和其他糖蛋白方面存在局限性。因此,将哺乳动物之间的糖蛋白变异与粘蛋白联系起来仍然是一个假设,需要进一步研究,也许可以使用最近可用的粘蛋白纯化方法(38).尽管如此,先前的研究表明,在我们的SDS-PAGE大小范围内,PAS在人类唾液中染色最强烈的一级糖基化蛋白质是MUC5B和MUC7(27,39,40).因此,我们的研究结果提供了相关证据,至少其中一些观察到的差异是由粘蛋白驱动的。例如,雪貂的唾液产生的糖基化带至少是人类唾液的四倍(图5B).这与我们的发现一致,在我们调查的物种中,雪貂拥有最多数量的谱系特异性粘蛋白(图1).除了谱系特异性粘蛋白外,我们发现,几乎所有哺乳动物中具有同源序列的多个粘蛋白基因在雪貂唾液中以物种特异性的方式表达。这些对雪貂的观察提供了另一个证据,表明哺乳动物唾液粘液蛋白的高度多样性是通过获得新的粘蛋白基因和重新利用现有的粘蛋白在唾液中表达和分泌而进化而来的(图5B).粘蛋白进化模型的建立我们记录了不同哺乳动物粘蛋白功能独立进化的多个实例,并表明这些新发现的粘蛋白大多位于SCPP基因座内。这种基因功能在一个特定的位点上的反复进化不是通过整个基因的复制而发生的,这是不寻常的。因此,我们构建了一个粘蛋白进化模型(图6)其中编码富含脯氨酸的分泌蛋白的非mucin基因作为新粘蛋白的构建块。这个假设在生物学上是有意义的,因为富含脯氨酸的蛋白质在结构上(由于脯氨酸的丰富而具有刚性)和功能上(分泌的蛋白质)与粘蛋白相似。它们不同于粘蛋白,只是因为它们缺乏富含T和S的外显子重复序列,是O-糖基化的主要靶点。因此,这些基因具有通过重复添加外显子重复序列快速获得粘蛋白功能的潜力。我们的研究提供了一个最初的和保守的地图,重点放在SCPP位点。我们对最近可用的,生化引导的“粘蛋白体”数据库进行了平行分析,得出了类似的结论,但确定了谱系特异性粘蛋白形成的其他候选物(图S9)。因此,需要更彻底的努力将这一分析扩展到其他物种和地点。图6粘液化的进化装配线。顶部的染色体显示了一个假设的分泌蛋白位点,在那里整体的调控结构导致在腺体和分泌组织中的表达。就SCPP基因座而言,除了在腺组织中表达外,这些基因编码富含脯氨酸的分泌蛋白质。下一步是获得编码富含丝氨酸和苏氨酸肽的重复序列(灰色和蓝色方框)。其次,现有的翻译后修饰机制将O-聚糖连接到新形成的富含TS的重复序列上。最后,新基因功能在种群中得以维持,前提是它们能导致环境适应,如病原体清除,或穿山甲的独特情况是唾液粘性增加,以适应其特定的饮食生态位,即用长而粘的舌头诱捕蚂蚁。在查看器中打开我们提出的粘蛋白进化模型有三个更广泛的含义。首先,它把外显子重复作为快速进化和功能多样性的主要驱动力(41).其次,它揭示了富含脯氨酸的蛋白质作为粘蛋白生成的前体。第三,它认为糖基化是哺乳动物适应性进化的一种可能的力量(42).我们的模型与不断增长的重复性、收敛性和逆转性作为分子进化的共同主题的认识是一致的(43).除了机械性的见解,我们的研究结果还提出了一个问题:什么是导致新粘蛋白基因保留的适应力?一个线索来自这些粘蛋白的唾液表达。在人类,唾液中的粘液功能与病原体结合、粘液层形成、促进消化、为唾液液提供粘性和润滑性有关。因此,可以肯定地说,新的粘蛋白可能在免疫、饮食和唾液的机械特性方面具有有益的作用。以前的工作,包括我们的研究,已经表明粘蛋白上的O-聚糖与病原体相互作用(39).分泌的粘蛋白被认为是诱饵(21)使分泌物中的病原体受体饱和,从而阻止它们与组织表面结合。它们还可以“驯服”致病行为,促进微生物与宿主有机体之间更多的共生互动(44,45).粘蛋白O-聚糖的总体密度、大小、结构和空间分布决定了与病原体相互作用的范围(39,46)因此单个粘蛋白可能进化成针对特定微生物的(47).例如,唾液酸残基作为粘蛋白O-聚糖的末端成分,为特定病原体的识别提供了分子基序(48,49)这些主题在进化的军备竞赛中经常发生变化(49,50).因此,谱系特异性粘蛋白可能以谱系特异性的方式与特定病原体结合,或被特定病原体结合,并且其外显子重复的拷贝数变化可微调糖基化,这可能有助于跟上不断变化的致病压力。粘蛋白的进化也可能与不同物种对不同食物的消化和感知有关。唾液中的粘蛋白含量可以直接与食物相互作用,改变感知能力(51,52).此外,粘蛋白可以相互作用,并可能改变胃肠道的微生物组成(53)从而影响消化(54).有人认为,口腔和肠道微生物在与胃肠道粘蛋白的相互作用中处于竞争状态(55).因此,由于饮食与胃肠道微生物群共同作用形成的选择性压力,一些粘蛋白可能在特定的谱系中适应性地维持。粘蛋白在决定体液的物理性质及其形成组织屏障的功能方面也起着关键作用。因此,一个令人兴奋的未来研究领域将是研究新粘蛋白的唾液活性与唾液的物理性质,如粘度、润滑性和纺锤纹(56).总之,我们的研究建立了一个基因簇的共同功能和结构特性如何促进粘蛋白功能在其他进化无关的基因中反复产生的机制。我们的研究结果为粘蛋白的从头形成及其如何在粘蛋白组中产生多样性提供了机制性的见解。我们也为未来的工作开辟了一些途径,以描绘粘蛋白的功能、形成机制和适应性影响,并在更广泛的层面上,研究新基因功能的进化。材料和方法候选粘蛋白的初步鉴定基因和蛋白质注释可从国家生物技术信息中心(NCBI)基因组索引数据库下载,网址:ftp://ftp.ncbi.nih.gov/genomes/通过搜索关键字“muc”、“mucin”、“mucin like”和“mucin domain containing”(2021年5月26日访问),推测的粘蛋白是从这个数据集中提取的。每一个被查询的物种(人类、老鼠、奶牛和雪貂)都含有一些假定的粘蛋白基因,而这些基因没有被粘蛋白数据库所注释www.medkem.gu.se/mucinbiology/databases/(2021年5月26日查阅)。同源序列的BLAST搜索一旦我们通过上述关键词搜索获得候选粘蛋白基因列表,就可以使用NCBI-BLAST来确定每个人类、小鼠、奶牛和雪貂参考基因组中候选粘蛋白的存在与否。这一步允许我们验证注释以及区分谱系特异基因和同源基因。简单地说,蛋白质序列是从UniProt和NCBI下载的。使用BLASTp(非冗余蛋白序列)在每个物种中搜索这些序列。爆破得分参数(57)算法如下:矩阵,BLOSUM62;缺口成本,存在11扩展1;成分调整,成分得分矩阵调整,如别处所述(58).根据最高得分、总分、查询覆盖率(>30%)对爆炸命中率进行评估,e值(<0.01)和标识百分比(>20%)。接下来,我们在相应的参考基因组中鉴定出与候选蛋白序列同源性最高的基因组区域的基因注释。此外,我们使用NCBI和UCSC基因组浏览器,比较这些假定基因的基因组位置与其他已知粘蛋白基因的相对位置,以确定共线性位置。我们在图1.需要注意的是,我们的管道是保守的,依赖于基因注释的准确性和装配质量。我们认为,尽管我们的主要观察结果保持不变,但仍需进一步验证,以构建哺乳动物粘蛋白含量的最终地图。例如,串联重复序列特别难以组装,因此可能在一些参考基因组中缺失。最近发布的人类T2T联盟大会(59),可以说是最精确的哺乳动物参考基因组,它识别了人类基因组中两种新的粘蛋白,MUC3B和MUC22样。这些不包括在我们的数据集中。因此,很明显,未来在其他哺乳动物中基于长阅读序列的组装将弥补这些缺点,并扩大我们对粘蛋白的理解。研究粘蛋白性质我们组织了一个双管齐下的管道来确认这些假定的粘蛋白候选物中的粘蛋白性质。粘蛋白的一个重要特征是其重复的开放阅读帧序列局限于域内(8).在我们的管道中,我们使用串联重复序列查找器搜索我们所有四个哺乳动物查询物种中候选粘蛋白的重复序列(60).该算法识别给定序列中的重复模体。一个问题是模体难以定义(例如,我们可以在串联重复阵列中具有多个重复模体)(例如,图S6)。为了保持一致性,我们报告了所有的母题(重复串联)≥3) 在我们的分析中使用最长的motif单元。接下来,我们定位富含脯氨酸、苏氨酸和丝氨酸的结构域,丝氨酸是粘蛋白的一个重要特征。我们使用了一个名为PTSpred的Perl脚本算法(61).PTSpred使用一个滑动窗口(50到200个氨基酸)沿着给定的蛋白质序列来计算这个窗口内脯氨酸、苏氨酸和丝氨酸氨基酸的百分比。我们使用推荐的阈值来识别PTS域。新的(谱系特异性)粘蛋白特性是通过要求以下所有特征来确定的:每段肽段中存在大于4%的预测O-糖基化位点,肽序列中存在大于20%的TS丰度,存在基因域内包含的重复序列,最后,存在脯氨酸、苏氨酸-,富含丝氨酸的氨基酸序列在外显子重复序列中聚集。测定蛋白质的分泌潜能为了在蛋白质序列上建立信号肽,我们使用signalp5.0(62),可在www.cbs.dtu.dk/services/SignalP/,使用标准参数进行预测。此外,我们还搜索了已知的粘蛋白结构域[如血管性血友病因子样、表皮生长因子样、精子蛋白肠激酶和agrin结构域(8)]使用Pfam 32.0(https://pfam.xfam.org/) (63).该算法利用多重序列比对和隐马尔可夫模型来预测这些区域。同时,我们用TMHMM寻找新粘蛋白中跨膜螺旋的存在(www.cbs.dtu.dk/services/TMHMM/) (64).此外,为了确定新粘蛋白被分泌的可能性,我们使用了SRTpred服务器(65)可在https://webs.iitd.edu.in/raghava/srtpred/home.html简而言之,这个数据库使用机器学习算法来测量蛋白质的分泌潜力,正值表示分泌。同时,我们也在outcelyte数据库中验证了这些结果(可在www.outcelte.com网站/) (66),也包括机器学习来估计分泌潜力。特别是0.5分或更高的分数表示可能有分泌物。表S1报告了SRTpred和OUTCYLE的结果。蛋白质O-糖基化潜力的测定用SPRINT-Gly预测O-糖基化位点(可在https://doi.org/10.1093/bioinformatics/btz215) (67).这种深神经网络方法根据每个给定窗口中的氨基酸序列预测T或S肽被O-糖基化的可能性。简单地说,该算法扫描每个蛋白质序列中的T和S氨基酸,并在所识别的T或S氨基酸周围生成一个包含上游4个氨基酸和下游4个氨基酸的窗口。然后,它根据这个窗口和先前在人类和小鼠中证实的O-糖基化肽分配了一个O-糖基化的概率。为了进一步支持SPRINT-Gly预测的潜在O-聚糖位点,我们使用了Net-O-glyc4.0(可在www.cbs.dtu.dk/services/NetOGlyc/) (68),它可以估计在人类细胞系中O-糖基化实验预测训练的哺乳动物物种间的潜在O-糖基化。两种算法的结果一致。然而,我们发现使用SPRINT-Gly对O-糖基化提供了更严格的预测,因此,我们选择在图中使用这个更保守算法的结果。额外谱系特异性粘蛋白及其可能的同源物的鉴定如正文所述,我们确定了250-300kb的区域(取决于物种)CSN3和AMTN公司SCPP位点内的基因作为谱系特异性粘蛋白的热点。然后,我们扩大了我们对其他哺乳动物(总共49种哺乳动物)在这个基因座内的谱系特异基因的搜索。特别是,我们确定了这个热点区域的基因注释并下载了蛋白质序列。然后,我们使用这些蛋白质序列,使用我们的粘蛋白测定管道对基因进行分类,包括确定外显子重复序列和这些重复序列的O-糖基化潜力,如上所述。下一步,我们使用BLAST搜索,使用与上述初始筛选相同的参数,来搜索其他哺乳动物物种中每个候选粘蛋白的同源序列。这一过程使我们能够识别28种谱系特异性粘蛋白,如表S1所述。识别谱系特异性粘蛋白的前体我们想验证这样一个假设,即至少有一些谱系特异性粘蛋白是从现有基因进化而来的,这些基因没有富含TS的重复序列,例如MUC10从富含脯氨酸的祖先蛋白质前体进化而来(图3).为此,我们结合基因注释、BLAST搜索和RNA序列图,对哺乳动物中28种谱系特异性粘蛋白的蛋白质序列进行了彻底的搜索。值得注意的是,我们鉴定出的每一个前体都是富含脯氨酸的蛋白质。由于谱系特异性蛋白质的重复性,我们的研究并不简单。首先,重复内容增加了爆炸相似性搜索的不确定性,从而降低了统计能力。其次,由于PTS丰富的重复,存在误报爆炸命中的可能性。因此,为了避免在最初的BLAST搜索中包含重复部分,我们使用了前30个氨基酸,这与分泌蛋白中的信号肽大致一致。接下来,我们手动将谱系特异性粘蛋白与假定的祖先同源物进行比对,以识别序列相似性的特定区域,如中所述图4。我们在下面详细描述了我们对每一种谱系特异蛋白的搜索细节,我们在下面详细描述了我们识别出的富含脯氨酸的前体。总的来说,我们的管道是保守的,其他谱系特异性粘蛋白也可能有我们在本研究中没有检测到的富含脯氨酸的前体。似粘液的食肉动物为了确定食肉动物谱系特异性粘蛋白(在猫中称为类MUC2,但在雪貂和狗中称为SMR3A;图S2,第七行)的祖先起源,我们对猫的MUC2样蛋白序列的前30个氨基酸进行了分析(家猫,felCat9)对人类(taxid:9606,hg38)。我们从对人类基因组的冲击开始,因为基因注释和蛋白质序列的精确性对人类来说是最佳的,而且在其他物种中可能有未知的偏差。我们发现SMR3A和SMR3B基因受到了显著的打击(e=6×10?8).然后我们手动将人SMR3A和SMR3B与cat MUC2样蛋白序列进行比对,发现SMR3A有两个高度相似的区域,而SMR3B只有一个区域。然后我们再次使用BLAST来验证这些单独的修剪区域(请参见序列文件S1中的对齐和图4对于e价值观,e<10岁?30).顺便说一句,在修订期间更新的新组件现在将猫的这个基因注释为SMR3A。有蹄类粘液我们能够追踪到在偶数趾有蹄类动物(牛、羊、骆驼、羊驼和羚羊;图S2,第一行)中发现的一种谱系特异性粘蛋白是祖先富含脯氨酸的SMR3B蛋白。与上面的管道相似,我们首先将这种谱系特异性粘蛋白的前30个氨基酸序列给人类,并发现了对SMR3B基因的显著打击(e=0.001)。然后,我们把搜索范围缩小到了外群血统,奇趾有蹄类动物(taxid:9787)。最显著的打击是SMR3B在驴身上(e=3×10?12).我们验证了驴SMR3B没有重复。下一步,我们手动对齐牛MUC2和驴SMR3B序列并检索到BLASTe中报告的非重复部分的值图4和序列文件S1。啮齿动物MUC10我们发现该蛋白的前30个氨基酸向人的PROL1爆炸(e=0.046)。根据前面的例子,我们对老鼠和人类的氨基酸序列进行了比对,并使用BLAST搜索来识别相似点并评估其唯一性。我们发现对老鼠做同样的处理会产生更低的效果e价值观。现在报告了图3B值得注意的是,基因注释导致了这些基因进化起源的混乱。例如,与我们的结果一致,小鼠参考基因组中MUC10的最新基因注释将该基因称为PROL1。然而,最新的人类基因注释更新是指序言1在人类身上OPRPN公司.犀牛PROL1当我们将犀牛PROL1的前30个氨基酸对人类进行猛烈攻击时,我们没有发现任何显著的影响。相反,相信参考基因组中的基因注释,我们将Rhino-PROL1与人类PROL1(现在是OPRPN)进行了比对。我们发现了多个排列良好的部分,我们使用BLAST对这些部分进行了详细的询问,并发现其中一些部分的命中率很高(e<10岁?6).我们把这些报告给图4和序列文件S1。序列扩增和验证老鼠Prol1/Muc10基因组序列是聚合酶链反应(PCR)扩增和桑格测序使用标准方法。引物序列和测序结果在序列文件S1中找到。我们的测序区域和小鼠(mm10)参考基因组在重复次数和核苷酸方面没有差异。系统发育和同义与非同义位点分析啮齿动物中发现的谱系特异性粘蛋白序列(Muc10型)还有猫(粘液样)从NCBI下载。repeat域中包含的repeat在textwangler中手动编译,并使用CLUSTALW进行对齐(69)以百万计(70).利用100个bootstrap复制品构建了最大似然系统发育树。然后在MEGA的成对距离计算机上分析重复序列,以确定啮齿动物和猫科动物在种内和种间的同义和非同义位点变化。RNA序列数据挖掘用于构建图S8的RNA序列数据取自NCBI基因组数据查看器上的表达外显子覆盖轨迹(www.ncbi.nlm.nih.gov/genome/gdv/).这个数据库包含来自多种组织和物种的全面RNA序列数据。为了确定一个基因是否具有可观察的组织表达,我们使用了一个“管家”RNA表达基因,PSMB2型已知在所有胎盘哺乳动物的所有组织中都有表达(71).如果一个基因表达的数量级与PSMB2型,我们认为这个基因在那个组织中被“表达”。唾液收集收集人、老鼠、老鼠、猪、牛、狗和雪貂个体的唾液样本,并将其储存在?80摄氏度。人类受试者:根据布法罗大学人类受试者制度审查委员会(IRB)委员会(研究编号:030-505616)批准的方案,通过被动流口水收集人类唾液。所有人类参与者均获得知情同意。其他哺乳动物的样本是与同事和其他研究机构合作收集的。有关不同哺乳动物物种所用采集方法的更详细说明,请参见(三).唾液蛋白的SDS-PAGE分离及糖基化组分的PAS染色样品在还原条件下变性,加入4×三醋酸缓冲液(NuPAGE,Invitrogen,Carlsbad,CA),2.5%β-巯基乙醇(按样品体积计),并在水中煮沸10分钟。使用3-8%梯度三醋酸三酯微凝胶(NuPAGE,Invitrogen,Carlsbad,CA)通过SDS-PAGE分离等量的总蛋白(每道15μg)。如前所述,用PAS染色显示糖基化蛋白带(40).染色凝胶使用平板扫描仪在透明模式下成像(ImageScanner III,GE Healthcare)。用于质谱分析的唾液样品制备使用表面活性剂辅助沉淀/颗粒消化法制备唾液样本(71).简单地说,从每个唾液样本中提取50μg蛋白质并加入SDS,最终浓度为0.5%。在56°C下用10 mM二硫苏糖醇(DTT)将样品依次还原30分钟,并在37°C下用25 mM碘代乙酰胺(IAM)烷基化30分钟,这两个过程都是在有盖的热混合器(Eppendorf)中进行的。然后在剧烈的涡流作用下向样品中添加六体积的冷冻丙酮,并在?20°C,持续3小时。18000离心后g,4°C 30分钟,倾析样品,用500μl甲醇轻轻洗涤包衣蛋白质。空气干燥1分钟后,向颗粒中添加40μl 50 mM(pH 8.4)三甲酸(FA),并添加总体积为10μl的胰蛋白酶[0.25μg/μl,溶于50 mM(pH 8.4)tris-FA]中,在37°C下持续振荡6小时胰蛋白酶消化。添加0.5μl FA终止消化,并在18000下离心分离蛋白质消化g,4°C,30分钟。小心地将上清液转移到LC小瓶中进行分析。蛋白质凝胶条带的去除及质谱分析的制备使用凝胶内消化法制备切下的凝胶带样品。首先用干净的手术刀将凝胶带切成更小的立方体(每个尺寸1到2毫米),然后转移到新的叶宾管(Eppendorf)。凝胶立方块通过在500μl乙腈(ACN)中培养5分钟并持续旋转进行脱水,并丢弃液体(以下所有脱水步骤遵循相同的程序,除非另有规定)。在500μl 50