第五章 非编码RNA与心血管疾病

第一节 非编码RNA概述

中心法则是分子生物学的重要原理,揭示了从DNA到蛋白质的遗传信息流。DNA是遗传信息的储存场所,蛋白质是生物学功能的主要执行者,RNA是联系两者的纽带。传统观点认为大部分DNA都能编码蛋白质。随着人类基因组计划的完成和DNA组件百科全书(ENCyclopedia of DNA elements,ENCODE)计划的实施,发现DNA上编码蛋白质的区域仅占人类和其他高等动植物基因组的极小部分,在人类不超过整个基因组的3%,其余部分不能编码蛋白质或多肽。然而,这些为数众多的DNA并不是所谓的“垃圾DNA”,因为它们中的绝大部分可以转录成RNA,在RNA水平直接发挥功能,因而统称为非编码RNA(non-coding RNA,ncRNA),即不编码蛋白质的RNA。近年来ncRNA的研究持续升温。在2010年12月17日出版的Science杂志中,将ncRNA评为21世纪前10年十大科学突破的首位。因此,作为生命中的暗物质,ncRNA是亟待挖掘的生物宝库。

ncRNA种类繁多,主要依据其位置、功能和特征进行命名。根据ncRNA功能的差异,分为管家ncRNA(housekeeping non-coding RNA)和调节性ncRNA(regulatory non-coding RNA)两个大类(图5-1)。管家ncRNA仅占很小的比例,为组成性表达的RNA分子,直接或间接参与蛋白质编码基因的表达,是蛋白质生物合成所必需的因子,包括转运RNA(transfer RNA,tRNA)、核糖体RNA(ribosome RNA,rRNA)、胞质小RNA(small cytoplAsmic RNA,scRNA)、核内小RNA(small nuclear RNA,snRNA)、核仁小RNA(small nucleolar RNA,snoRNA)、核酶(ribozyme)等。大部分ncRNA为调节性ncRNA,在一定条件下诱导表达,其功能是调节蛋白质编码基因的表达。依据核苷酸(nucleotide,nt)的长度不同,可将调节性ncRNA分为短链非编码RNA和长链非编码RNA(long non-coding RNA,lncRNA)两种类型。短链非编码RNA小于50nt,主要包括小干扰RNA(smallinterfering RNA,siRNA)、微小RNA(miRNA)和PIWI蛋白相互作用RNA(piwi-interacting RNA,piRNA)。lncRNA是长度大于200nt的调节性ncRNA的总称,与其他ncRNA相比,lncRNA种类最多,功能也更为复杂。本节对这些ncRNA进行逐一介绍。

一、管家ncRNA

(一)tRNA

大多数tRNA由70~90nt组成,折叠成三叶草形的短链结构。tRNA的主要功能是携带氨基酸进入核糖体,并与核糖体的氨基酰位结合,在多肽链生成的延伸阶段发挥重要作用。当肽链形成后,tRNA即从核糖体释放出来,重新利用,整个过程称为“tRNA循环”。

图5-1 RNA分类示意图

(二)rRNA

rRNA是细胞内含量最多的一类RNA分子,约占RNA总量的82%。原核生物的rRNA分为5SrRNA、16SrRNA和23SrRNA,真核生物的rRNA则分为5SrRNA、5.8SrRNA、18SrRNA和28SrRNA。rRNA单独存在时不具有生物学功能,但与核糖体蛋白质结合后,形成核糖体,从而作为蛋白质生物合成的“装配机”。RNA分子中含有许多特殊的核苷酸序列,分别介导其与mRNA、tRNA、核糖体蛋白质的结合。

(三)scRNA

scRNA存在于细胞质中,长度约为300nt,又称为7SL-RNA。这类RNA分子能与特异蛋白质结合,形成信号识别颗粒(signal recognition particle,SRP)。SRP最重要的生物学功能为识别信号肽,但也可与核糖体结合,暂时阻断多肽链的合成。SRP受体/码头蛋白位于粗面内质网膜上,SRP与其受体结合后,介导核糖体和信号肽与膜上的核糖体结合蛋白及蛋白通道结合,使核糖体定位于粗面内质网,SRP随后与其受体解离,并进入新的循环,而信号肽引导继续合成的蛋白序列进入内质网内腔。因此,scRNA主要参与蛋白质向内质网的转运。

(四)snRNA

snRNA位于细胞核内,共包括5种类型:U1、U2、U4、U5和U6,其主要功能是与蛋白因子结合形成小核糖核蛋白颗粒(small nuclear ribonucleo-protein partcle,snRNP),对转录生成的不均一核RNA(heterogeneous nuclear RNA,hnRNA)进行加工剪接,使hnRNA转变为成熟的mRNA。存在于snRNP中的蛋白为通用蛋白,也称为sm蛋白。目前,通用蛋白与snRNA之间的结合位点已经被鉴定。除U6外,通用蛋白可以结合到其他4种snRNA的保守序列AAU4-5GGA上,这段序列可作为判断snRNA的结构特征。

(五)snoRNA

snoRNA是一类广泛分布于真核生物细胞核仁的RNA小分子,长度为60~200nt,具有保守的结构组件,据此分为两大类:box C/D snoRNA和box H/ACA snoRNA。box C/D snoRNA含有两个短的序列组件,包括位于5′-端的box C(RUGAUGA)和3′-端的box D(CUGA),这类snoRNA的主要功能为指导rRNA特定位点的2′-O-甲基化修饰。box H/ACA snoRNA具有保守的“发夹-铰链-发夹-尾”(hairpin-hinge-hairpin-tail)的二级结构,box H(ANANNA,N代表任一核苷酸)位于单链形式的铰链区,ACA则一般位于3′-端上游3个核苷酸处,主要指导rRNA分子上特殊位置的尿苷向假尿苷的转换,即假尿苷化修饰。此外,snoRNA也参与tRNA、snRNA、mRNA的转录后修饰及端粒酶稳定性与活性的维持等生物学过程。

(六)核酶

核酶亦被称为催化性小RNA,是细胞内具有催化功能的RNA分子,可降解特异的mRNA序列,在RNA的剪接修饰中发挥重要作用。它的发现颠覆了酶必须是蛋白质的传统观念,但与蛋白质酶相比,其催化效率较低,是一种较为原始的催化酶。

二、调节性ncRNA

(一)miRNA

miRNA是一类长度在22(19~25)nt的内源性ncRNA,广泛存在于动物、植物、病毒及微生物体内。迄今为止,已经有20 000多个miRNA分子被发现和鉴定。这类ncRNA通过碱基互补配对的方式与靶mRNA的3′-端非翻译区(3′-untranslated region,3′-UTR)结合,导致mRNA的降解或翻译抑制,从而在转录后水平调控基因表达。

1.miRNA的生物学特征

作为序列上高度保守的小RNA分子,miRNA有以下几个明显的生物学特征:①与mRNA不同,不含有开放阅读框,因而无编码蛋白质功能;②虽然miRNA的长度一般为19~25nt,但在3′-端可以出现1~2nt的长度变化,对miRNA的具体长度范围目前无统一标准,如在拟南芥和烟草中发现的26nt RNA以及在四膜虫属中发现的能使大部分DNA失活的28nt RNA也属于miRNA;③成熟miRNA的5′-端有一磷酸基团,3′-端为羟基,这一结构特点使它们能与大多数寡核苷酸和功能RNA的降解片段区别开来;④miRNA基因在基因组上不是随机排列的,其中一些通常形成基因簇,来自同一个基因簇的miRNA具有较强的同源性,而不同基因簇的miRNA同源性相对较弱;⑤miRNA的表达在不同组织及不同发育过程中呈现出时空特异性;⑥一个miRNA可能有多个靶基因,而多个miRNA可以作用于同一个靶基因,这体现了miRNA调控基因表达的复杂性。

2.miRNA的生物合成

miRNA来自于基因组的基因间隔区或者编码基因的内含子中,但是不论其来自何处,加工成熟机制基本相同(图5-2)。在细胞核内,编码miRNA的基因首先通过RNA聚合酶(RNA polymerase,RNA pol)Ⅱ 或RNA polⅢ 转录生成初级miRNA(primary miRNA,pri-miRNA),这些pri-miRNA与来自蛋白质编码基因的mRNA有相似的结构,存在5′-端帽子和3′-端多聚腺苷酸尾巴,长度可达数千个碱基。然后,pri-miRNA经Drosha酶/DGCR8(DiGeorge syndrome critical region gene 8)复合物剪切成70~80nt、具有茎环结构的前体miRNA(precursor-miRNA,pre-miRNA)。在输出蛋白5(exportin 5,Exp5)的作用下,premiRNA从细胞核转出。在细胞质内,pre-miRNA被Dicer酶/反式启动RNA结合蛋白(transactivating response RNA-binding protein,TRBP)复合物剪切掉茎环结构,释放出由成熟miRNA与miRNA组成的二聚体,miRNA是pre-miRNA中的一段,其位置恰好与成熟的miRNA相对应。最后,RNA解旋酶解开双链,释放出miRNA和miRNA,后者随后被降解。miRNA结合到Argonaute(Ago)蛋白上形成RISC,从而引起靶mRNA的降解或翻译抑制。哺乳动物细胞中存在4种Ago蛋白(Ago1~4),大多数miRNA与Ago1蛋白结合,少数与Ago2蛋白结合。由Ago1蛋白形成的RISC主要抑制mRNA的翻译过程,而由Ago2蛋白形成的RISC则可剪切靶mRNA,导致基因表达沉默。

大部分miRNA经上述经典途径合成,但最近在果蝇和线虫体内发现一种非经典的合成方式,命名为mirtron途径(图5-2)。mirtron是基因的内含子,通过RNA polⅡ与编码基因共同转录为前体mRNA(precursor-mRNA,pre-mRNA),在套索分支酶(lariat-debranching enzyme,LDBR)的作用下,这些pre-mRNA中的内含子被剪接,形成pre-miRNA,随后的过程与经典的miRNA合成途径一致。

图5-2 miRNA生物合成途径

3.miRNA的生物学功能

在植物体中,miRNA一般以完全互补或者几乎完全互补的方式识别并结合靶mRNA,引起靶mRNA的降解,类似于RNA干扰(RNA interference,RNAi)的作用。miRNA所调控的靶基因控制着植物的根、叶、花等形态发生、细胞分化、输导组织形成等植物生长发育的各个方面,大多数miRNA通过调控转录因子影响细胞分化和器官发生。与植物相反,动物细胞中的miRNA主要以不完全互补的方式与靶mRNA结合,导致翻译抑制,对mRNA的稳定性影响较小。生物信息学分析表明,人类1/3的基因都受到miRNA调控。miRNA几乎参与了细胞增殖、分化、凋亡、自噬及新陈代谢、免疫反应、生长发育、衰老等所有生物学过程,其失调与众多疾病的发生发展密切相关。

(二)lncRNA

lncRNA是RNA聚合酶Ⅱ转录的副产物,经剪接、5′-端加帽和3′-端加多聚腺苷酸尾巴之后成熟,位于细胞核或细胞质中。虽然lncRNA的结构与mRNA相似,但缺乏mRNA所具有的开放阅读框架。在2014年更新的lncRNA数据库中,共收录了210 831种lncRNA。

1.lncRNA的分类与来源

lncRNA的分类尚无统一规则,通常根据其编码序列与蛋白质编码基因的相对位置分为以下5种类型(图5-3)。①正义lncRNA:其转录方向与邻近蛋白质编码基因转录方向相同;②反义lncRNA:其转录方向与邻近蛋白质编码基因转录方向相反;③双向lncRNA:lncRNA同时从邻近的蛋白编码基因分别向相反2个方向进行转录,且转录起始位点间的距离小于1 000nt;④基因间lncRNA:从2个蛋白质编码基因的基因间隔区转录得到,大部分lncRNA属于此类;⑤内含子lncRNA:来源于另一个蛋白质编码基因的内含子序列。尽管目前对lncRNA的认识还处于早期阶段,但其来源具有多样性:①由编码蛋白质的基因结构中断而成,进而转变为有功能的lncRNA;②染色质重组的结果,即两个未转录的基因与另一个独立的基因并列,从而形成具有多个外显子的lncRNA;③非编码基因复制过程中的反移位产物;④局部的串联复制子产生邻近的lncRNA;⑤基因中间插入一个转座成分而产生有功能的lncRNA。

图5-3 lncRNA的分类

2.lncRNA的作用机制

lncRNA具有复杂的作用方式,主要包括以下9种类型(图5-4):①通过在蛋白质编码基因的上游启动子区转录,干扰下游基因的表达;②通过抑制RNA聚合酶Ⅱ或介导染色质重构与组蛋白修饰影响下游基因的表达;③通过与蛋白编码基因的转录本形成互补双链,进而干扰mRNA的剪切,产生不同的剪切形式;④通过与蛋白编码基因的转录本形成互补双链,在Dicer酶作用下产生内源性的siRNA,进而调控基因的表达;⑤通过与特定蛋白质结合调控相应蛋白的活性;⑥结合到特定蛋白质上,从而改变该蛋白质在细胞内的定位情况;⑦作为结构组分与蛋白质形成核酸蛋白质复合体;⑧作为miRNA和piRNA等ncRNA的前体分子;⑨竞争性内源RNA(competitive endogenous RNA,ceRNA):哈佛大学医学院Salmena教授2011年8月在Cell杂志首次提出“ceRNA假说”,认为具有相同miRNA应答组件(miRNA response element,MRE)的mRNA、假基因转录物、lncRNA等通过竞争性结合同种miRNA来调控各自的表达水平,从而影响各自功能的发挥,当lncRNA表达水平低时,它只能结合少量的miRNA,因而有较多的miRNA结合到靶mRNA,这时靶mRNA的表达在转录后水平受到抑制;相反,当前者表达水平高时,靶mRNA的转录后水平将受到较少的抑制,即以miRNA为桥梁,lncRNA正性调控靶mRNA表达,两者呈现出一致的变化趋势,这代表了一种全新的基因表达调控模式(图5-5)。

3.lncRNA的主要生物学功能

lncRNA在染色质重构、转录调控、转录后调控及蛋白质代谢等方面均发挥着重要的作用,参与细胞分化、功能性蛋白质转运、器官发育等多个生物学过程。染色质重构和组蛋白修饰是表观遗传学的主要内容,表观遗传学指在DNA序列不发生改变的情况下,基因的表达水平与功能却发生了改变,其特征可概括为DNA序列不变、可遗传、具有可逆性。lncRNA既能与染色质修饰复合物结合并募集作用因子到特定位点发挥作用,又可以通过组蛋白修饰达到基因沉默的目的,还能通过募集染色质修饰抑制因子来参与等位基因的特异性沉默。此外,lncRNA可通过改变染色质结构来调节基因的表达,通过顺式或反式方式来激活或沉默单个基因。除了DNA水平外,lncRNA也可在转录水平、转录后水平调控基因表达。基因转录指以DNA的一条链为模板,按照碱基互补配对原则合成RNA的过程。lncRNA对基因转录可发挥正性、负性调控作用,一方面使转录因子、增强子活性增加,刺激靶基因转录;另一方面通过转录干扰、改变转录因子的亚细胞定位或者增加转录因子竞争底物活性等方式抑制靶基因转录。转录后水平的调控对于mRNA的加工成熟非常重要。研究发现,lncRNA通过影响mRNA前体剪接、5′-端加帽、3′-端加尾、转运及稳定性等因素参与基因表达的转录后调控。随着研究的深入,lncRNA更多的生物学功能将不断被发现。

图5-4 lncRNA作用机制

图5-5 lncRNA作为ceRNA参与lncRNA-miRNA-mRNA调控网络的机制

(三)siRNA

siRNA是具有特定长度(19~25nt)和特定序列的双链RNA片段,是RNAi中的效应分子。当病毒基因、人工转入基因、转座子等外源性基因随机整合到宿主细胞基因组内,利用宿主细胞进行转录时,可产生与外源基因互补的双链RNA(double-strand RNA,dsRNA),Dicer酶随后将dsRNA切割成siRNA。在解旋酶的作用下,siRNA被解链为正义链和反义链,其中反义链与含Ago蛋白的核酶复合物结合,形成RNA诱导沉默复合体(RNA-induced silencing complex,RISC),随后RISC中的siRNA反义链与靶mRNA特异性地结合,Ago蛋白对mRNA进行切割,导致靶基因沉默。此外,在RNA依赖性RNA聚合酶的作用下,以siRNA的反义链为引物、宿主细胞的mRNA为模板,扩增产生足够数量的dsRNA作为底物提供给Dicer酶,从而产生大量的siRNA,形成级联放大效应,实现高效的沉默效果。由于siRNA具有稳定性好、特异性强、细胞毒性低及作用持久、强大等优点,目前已成为基因功能研究的强大工具。

(四)piRNA

piRNA是2006年在雄性小鼠睾丸中分离得到的一种新型小分子RNA,长度为24~31nt,绝大多数在29~30nt,因其必须与Ago家族中PIWI蛋白结合才能发挥生物学效应而得名。piRNA几乎遍布于整个基因组,但呈高度不连续性分布,大部分定位于20~90kb的染色体基因簇上,与来自于双链RNA的siRNA和茎环结构miRNA不同之处在于piRNA来自长单链RNA前体,或者是两股非重叠的反向转录前体,其生成与Dicer酶无关。这类小RNA的表达具有高度组织特异性,主要存在于哺乳动物的生殖细胞和干细胞中,与PIWI蛋白结合形成复合体而沉默基因表达,在维持生殖细胞基因组结构的稳定性及确保干细胞定向分化中起重要作用。