赖氨酸C端内切酶/胰蛋白酶顺序酶切在蛋白质组学样本制备中的评估
摘要采用胰蛋白酶(Trypsin)单独酶切与不同酶量的赖氨酸C端内切酶(LysC/trypsin)顺序酶切两种方法, 对293T细胞全蛋白样本进行酶解消化, 系统评估LysC/trypsin顺序酶切与Trypsin单一酶切在蛋白质组学样本制备中的差别。实验结果表明, LysC/trypsin顺序酶切不仅能显著提高肽段和蛋白质的鉴定数目, 同时降低遗漏K酶切位点的数目及比例, 而且得到的肽段长度有利于质谱鉴定, 蛋白质覆盖率明显提升。 通过对酶的用量进行优化对比, 最终确定了LysC/trypsin顺序酶切时酶的合理用量。本研究结果对提高蛋白质组学样本的制备质量以及蛋白质的序列鉴定覆盖度具有指导意义。
关键词胰蛋白酶; 赖氨酸C端内切酶; 顺序酶切; 蛋白质组学; 液相色谱串联质谱; 遗漏酶切
1引 言
“鸟枪法”蛋白质组学(Shotgun proteomics)鉴定, 是基于高效液相色谱和质谱技术的“自下而上”(Bottomup)的蛋白质组学分析技术, 具有高灵敏度、高通量的特点[1]。该技术将蛋白质经特定蛋白酶酶切消化成肽段, 采用液相色谱串联质谱技术(LCMS/MS)进行分析[2], 将检测到的肽段图谱与理论图谱进行匹配, 对蛋白质进行定性与定量分析。基于质谱的蛋白质组学研究, 已经建立了几乎完整的酵母蛋白质组表达谱[3], 并于2014年绘制了第一张人类蛋白质组草图[4]。目前, 临床蛋白质组学项目已经完成了人类结直肠癌、乳腺癌、卵巢癌等临床组织的蛋白质组表达谱的分析[5~7]。
近十年来, “鸟枪法”蛋白质组学在细胞裂解、肽段分离、质谱碎裂方式、生物信息学分析手段等[8]方法学研究上取得了重大进展, 然而在蛋白质酶切中仍然多使用单一的蛋白酶—胰蛋白酶(Trypsin)。Trypsin可特异性识别并切割蛋白质/多肽链中赖氨酸(K)或精氨酸(R)羧基端, 具有极高的位点特异性, 酶切产生的肽段主要以赖氨酸残基或精氨酸残基结尾, 这些肽段在酸性条件下容易带二价或更高价态正电荷而被质谱检测, 因此Trypsin在Shotgun proteomics 研究中广泛使用。然而, Trypsin也存在一些缺陷, 如酶切时切割蛋白质不完全[9], 且切割K、R位点的效率不同, 尤其K酶切位点的遗漏酶切比例较高[10]。样本制备体系中高浓度的盐、表面活性剂等都可能抑制Trypsin的活性[9]。Trypsin的这些缺陷将直接影响蛋白质鉴定的效率、质谱分析的重现性和蛋白质定量的准确性。
赖氨酸C端内切酶(LysC)是特异性识别并切割赖氨酸羧基端的蛋白酶, 在强变性条件下仍然具有酶切活性[10]。LysC与Trypsin联用, 能够在一定程度上克服Trypsin的上述缺陷, 使得蛋白质酶切更充分。1999年, Link等[11]首次提出将LysC与Trypsin联合用于分析大分子复合物; 随后, McDonald等[12]提出LysC/trypsin顺序酶切(蛋白先经LysC酶切, 再用Trypsin进一步酶切)方法, 用于复杂的蛋白质组学研究。Wada等[13]比较了十二烷基硫酸鈉聚丙烯酰胺凝胶电泳(SDSPAGE)胶内酶切时, LysC/trypsin顺序酶切与Trypsin单独酶切对蛋白鉴定结果的影响, 结果表明使用顺序酶切得到的肽段长度适宜, 更易于从胶内提取出来, 而且更利于质谱鉴定。溶液内酶切(In solution digestion)由于具有操作简便、快捷、样本损失量少等优点, 是蛋白质组学研究中最为常用的酶切体系[15]。虽然LysC/trypsin顺序酶切已广泛用于溶液内消化[16], 但目前很少有对溶液酶切条件下LysC/trypsin顺序酶切与Trypsin单独酶切进行比较的研究报道。2012年, Wisniewski 等[14]使用FASP(Filter aided sample preparation)方法, 发现顺序酶切得到的肽段总量增加了一倍, 且鉴定到的肽段数目、蛋白质数目均有显著增加。但该方法先用LysC在超滤管中对蛋白样本进行酶切, 之后离心收集酶切的肽段; 然后再向超滤管中加入Trypsin酶进行消化后, 离心收集酶切好的肽段, 最后合并两次离心得到的肽段样本。显然第一次离心收集的肽段因为仅用LysC酶切, 得到的肽段中会含有较多的R位点漏切的肽段, 肽段也较长, 在一定程度上不利于质谱检测。Glatter等[17]研究了溶液内LysC/trypsin顺序酶切的优势, 认为利用LysC/trypsin顺序酶切能得到较多的全酶切肽段, 从而提高可定量蛋白质的数目及定量结果的准确性, 但该研究并没有深入分析和探讨LysC/trypsin顺序酶切在蛋白质组样本鉴定方面的差异。目前, 对于LysC/trypsin顺序酶切在蛋白质组学样本制备中的应用仍然缺乏系统、全面的评估。
在顺序酶切时, 蛋白质与酶的质量比不同也可能会影响酶切效果, 常用的LysC质量比和Trypsin质量比例分别有100∶1和50∶1两种[18~21]。然而不同酶用量对实验结果是否有影响, 合适的酶用量是多少, 尚无详细和深入的研究报道。
本研究利用溶液内酶切方式, 从鉴定到的肽段数目、蛋白质数目、遗漏酶切位点数目、K/R遗漏酶切比例以及肽段长度和蛋白质覆盖率等多个方面, 评估了LysC/trypsin顺序酶切与Trypsin单独酶切的特性, 并比较了不同酶用量下对最终蛋白质组学样本检测结果的影响, 优化了酶切实验方案, 不仅大大提高了酶切效率, 而且也显著提高了蛋白质组学样本的检测效率和灵敏度。
2实验部分
2.1仪器与试剂
Orbitrap Fusion三合一质谱仪, EASYnLC 1000纳升级液相色谱仪(美国Thermo Fisher Scientific公司); DHP9052电热恒温培养箱(上海善志仪器设备有限公司)。
293T人肾上皮细胞(ATCC细胞库); DMEM培养基(美国Introvigen公司); 尿素(色谱纯)、NH4HCO3、半胱氨酸(纯度97%)、色谱纯三氟乙酸(TFA)、质谱级甲酸(FA)(德国SigmaAldrich公司); 蛋白酶抑制剂(瑞士Rocher公司); 二硫苏糖醇(DTT, 纯度99%)、碘乙酰胺(IAA, 纯度98%)(比利时Acros Organics公司); 增强型BCA蛋白浓度测定试剂盒(江苏碧云天生物技术公司); 质谱纯乙腈(美国Thermo Fisher公司); 质谱纯LysC、Trypsin(北京华利世科技有限公司); 其它试剂均为色谱纯。
2.2实验方法
293T细胞在含10%胎牛血清(FBS)、1×105 U/L青霉素、100 mg/L链霉素的DMEM培养基中常规贴壁培养。生长至对数期后, 收集细胞, PBS缓冲溶液洗涤3次, 加入细胞裂解液(8 mol/L 尿素, 100 mmol/L NH4HCO3, 1×蛋白酶抑制剂, pH 8.0), 冰上裂解30 min, 超声波破碎, 20000 g离心5 min, BCA法测定上清液蛋白质浓度。加入5 mmol/L DTT, 56℃ 反应30 min; 再加入15 mmol/L IAA, 避光条件下室温反应30 min; 最后加入30 mmol/L半胱氨酸, 室温反应30 min, 终止烷基化反应。
酶切消化过程分析进行5组实验, 第一组为Trypsin单独酶切(Tryp50/tryp100), 其余四组为不同酶用量组合的LysC/trypsin顺序酶切(LysC50/tryp50, LysC50/tryp100, LysC100/tryp50, LysC100/tryp100), 如图1所示。Trypsin单独酶切(Tryp50/tryp100)的方法为先将蛋白质溶液稀释4倍, 再按照蛋白质与酶质量比50∶1加入Trypsin (tryp50), 37℃反应16 h后, 按照蛋白质与酶质量比100∶1补加Trypsin (tryp100), 37℃继续反应3 h。顺序酶切的实验方法为: 蛋白质溶液不经稀释直接按预定比例(LysC50表示蛋白质与LysC的质量比为50∶1, LysC100表示蛋白质与LysC的质量比为100:1)加入LysC, 37℃反应3 h, 再将蛋白质溶液稀释4倍, 并按预定比例加入Trypsin, 37℃继续反应16 h。每组实验重复3次。酶切后的肽段用C18脱盐柱脱盐, 转干,
2.3高效液相色谱和质谱方法
液相色谱分离分析柱为自制毛细管柱(75 μm×15 cm), 填充C18填料(3 μm粒径, 100 Dikma Technologies)。流动相A: 甲酸乙腈水=0.1∶2∶98(V/V); 流动相B: 甲酸乙腈水(0.1∶98∶2, V/V)。梯度洗脱: 0~20 min, 8%~13% B; 20~51 min, 13%~26% B; 51~56 min, 26%~45% B; 56~57 min, 45%~80% B; 57~60 min, 80% B。流速: 300 nL/min。
Orbitrap Fusion质谱仪, 正离子模式检测, 离子传输毛细管的温度为300℃, 归一化碰撞能量为28%。采用数据依赖模式(Datadependent acquisition, DDA)进行采集, 包含一次MS全扫描(m/z 350~m/z 1300), 分辨率R=120000(m/z 200), 对其中强度最高的10个峰进行二级MS/MS扫描分析, 动态排除时间设置为60 s。
2.4数据处理
使用msconvert软件将质谱原始raw文件格式转化为mgf文件。使用Mascot 2.3.0搜索引擎搜索, 蛋白质数据库为Uniprot Human(版本: 20130507); 胰酶最大漏切位点数为2, 母离子质量容差为10 ppm, 碎片离子质量容差0.5 Da, 固定修饰为半胱氨酸的烷基化修饰, 甲硫氨酸的氧化和蛋白质N端的乙酰化为可变修饰。采用离子分数20分筛选(cutoff)的方式进行过滤, 控制蛋白水平的FDR(False discovery rate)为1%。
3结果与讨论
3.1鉴定到的肽段数与蛋白数
首先对其鉴定到的肽段匹配谱图数(Peptidespectrum match, PSM)、非冗余肽段数目、蛋白独有肽段数目和蛋白质数目进行对比分析, 结果如图2A和2B所示, LysC/trypsin顺序酶切的肽段鉴定数目、蛋白质鉴定数目等均比Trypsin单独酶切高, 其中LysC100/tryp50组鉴定到的肽段数目、蛋白数目均最高。对顺序酶切相比单独酶切鉴定到的蛋白质和肽段提升的比例进行分析(图2C和图2D), 发现LysC100/tryp50组提高的比例为11%~14%, LysC50/tryp50组其次, 提高了4%~7%。表明采用顺序酶切能够使蛋白质酶切消化更充分, 从而提高蛋白质和肽段的鉴定水平。此外, 研究结果还显示, 鉴定到的独有肽段数目也显著增加, 在进行蛋白质定量分析时可以进一步提高定量分析结果的准确性。
对比顺序酶切不同组实验的结果(LysC50/tryp50组与LysC50/tryp100組, LysC100/tryp50组与LysC100/tryp100 组, 图2C和图2D), 发现当增加第二步中使用的Trypsin量时, PSM数目、肽段鉴定数目、蛋白质鉴定数目等都有显著提升, 说明在酶解过程中使用足量的Trypsin, 能进一步确保蛋白质的酶切程度, 对于提高蛋白鉴定水平具有显著意义。但是, 对比LysC50/tryp100组与LysC100/tryp100组、 LysC50/tryp50组与LysC100/tryp50组的结果发现, 增加第一步LysC酶的用量并不能提高最终的样本检测水平, 肽段、蛋白质等的鉴定水平反而有所降低。推测是由于随着第一步LysC酶的用量增加, 导致在第二步加入Trypsin进行酶切时, LysC酶仍然保留有较强的酶切活性, 造成在该环节中LysC酶对Trypsin酶发生了一定的酶切反应, 从而降低了第二步Trypsin的酶切效率及程度。以上实验结果表明, 在进行顺序酶切时, 第二步Trypsin酶切环节应该使用足量的酶, 以保证蛋白质被充分消化; 同时第一步加入LysC酶的量不宜过多, 避免其对Trypsin酶的切割, 导致样本最终的酶解不彻底。
3.2遺漏酶切位点数目及比例
通过统计了各组实验结果中遗漏酶切的位点数目及比例, 进一步分析LysC/trypsin顺序酶切比Trypsin单独酶切能更有效提高鉴定肽段、蛋白质数目的原因。如图3所示, 使用Trypsin单独酶切时, 遗漏酶切位点的比例约为27%, 其中近80%为K遗漏酶切位点, 这与文献[13]报道的结果相符。而进行LysC/trypsin顺序酶切时, K位点遗漏酶切的比例显著降低。推测这不仅是由于LysC酶对赖氨酸具有高特异性酶切的特性, 而且在8 mol/L尿素的强变性条件下, 蛋白处于充分伸展状态, 使LysC酶能更加充分的对蛋白质进行酶切。因此, LysC酶和Trypsin酶进行顺序酶切能显著降低遗漏酶切位点数目和K位点遗漏酶切的比例, 从而提高质谱鉴定的重现性和定量分析的准确性。
3.3肽段长度分布
利用质谱进行蛋白质组学肽段样本检测时, 肽段过长或过短都不利于质谱检测与鉴定。对各组实验鉴定到的肽段长度进行统计分析的结果如图4所示。LysC50/tryp50与LysC100/tryp50两组鉴定到肽段的长度集中在7~21氨基酸残基(aa), 且此长度区间的肽段数目明显高于其它3组, 而长度大于32 aa的肽段数目明显低于其余3组。对比LysC50/tryp50组与LysC50/tryp100组、LysC100/tryp50组与LysC100/tryp100组发现, 当第二步Trypsin酶使用量少时, 样本中鉴定到的肽段长度普遍较长, 统计分析发现主要是由于产生的遗漏酶切肽段较多导致的, 这与上文中当Trypsin酶的用量减少时导致的遗漏酶切比例升高的现象一致。
3.4蛋白质序列覆盖度
在蛋白质组学数据分析中, 蛋白质鉴定和定量的准确性与蛋白质序列的鉴定覆盖度密切相关。分别统计了各实验组中蛋白序列覆盖度在20~30%、30~40%、>40%区间的蛋白数目, 结果见图5。第二步Trypsin使用量较高的两组(LysC50/tryp50组与LysC100/tryp50组), 在以上蛋白质序列覆盖度区间的蛋白数均最高, 说明顺序酶切时第二步使用足量的Trypsin能够增加蛋白质的序列覆盖度, 进一步证明其使得蛋白质被酶切的更加完全。此外, 序列覆盖度较高(>30%)的蛋白质中, LysC50/tryp50组的蛋白质数目均低于LysC100/tryp50组的数目, 提示第一步LysC酶的用量增大会导致第二步Trypsin效率的降低, 从而使得鉴定到的蛋白序列覆盖度低。
4结 论
本研究从鉴定蛋白质数目、肽段数目、遗漏酶切位点数目与比例、肽段长度和蛋白质序列覆盖度等方面, 对蛋白质组学样品溶液消化中的顺序酶切与单独酶切方法进行比较。结果表明, 顺序酶切能够使蛋白质被酶切的更完全, 从而降低遗漏酶切位点数目, 得到的肽段长度有利于进行质谱鉴定, 肽段数目、蛋白质数目以及蛋白质序列覆盖度均有所增加。顺序酶切时, 所用的酶量对实验结果有显著影响, 第二步使用足量的Trypsin能够更充分酶切蛋白质, 而第一步使用过量的LysC反而会影响到随后Trypsin的酶切效果, 使得蛋白质的酶切程度不彻底。本研究结果为蛋白质组学研究提供了实验基础, 对于提高蛋白组学样本检测的效率和灵敏度, 以及蛋白质组学的定量分析准确性具有参考意义。
References
1Malmstrm E, Kilsgrd O, Hauri S, Smeds E, Herwald H, Malmstrm L, Malmstrm J. Nat. Commun., 2016, 7: 10261-10270
2Link A J, Eng J, Schieltz D M, Carmack E, Mize G J, Morris D R, Garvik B M, Yates J R. Nat. Biotechnol., 1999, 17(7): 676-682
3de Godoy L M, Olsen J V, Cox J, Nielsen M L, Hubner N C, Mann M. Nature, 2008, 455(7217): 1251-1254
4Wilhelm M, Schlegl J, Hahne H, Gholami A M, Lieberenz M, Butzmann L, Gerstmair A, Faerber F, Kuster B. Nature, 2014, 509(7502): 582-587
5Zhang B, Wang J, Wang X, Zhu J, Liu Q, Shi Z, Chambers M C, Davies S R, Coffey R J, Slebos R J, Liebler D C. Nature, 2014, 513(7518): 382-387
6Lawrence R T, Perez E M, Hernandez D, Miller C P, Haas K M, Irie H Y, Lee S I, Blau C A, Villen J. Cell. Rep., 2015, 11(4): 630-644
7Lawrence R T, Perez E M, Hernandez D, Miller C P, Haas K M, Irie H Y, Lee S I, Blau C A, Villen J. Nat. Commun., 2016, 7: 12645
8Tsiatsiani L, Heck A J. FEBS. J., 2015, 282(14): 2612-2626
9Saveliev S, Bratz M, Zubarev R. Nat. Methods, 2013, 10 (11): i-ii
10Huesgen P F, Lange P F, Rogers L D. Nat. Methods, 2015, 12(1): 55-58
11Link A J, Eng J, Schieltz D M, Carmack E, Morris D R, Garvik B M, Yates J R. Nat. Biotechnol., 1999, 17(7): 676-682
12McDonald W H, Ohi R, Miyamoto D T, Mitchison T J, Yates J R. Int. J. Mass. Spectrom., 2002, 219: 245-251
13Wada Y, Kadoya M. J. Mass. Spectrom., 2003, 38(1): 117-118
14Wisniewski J R, Mann M. Anal. Chem., 2012, 84(6): 2631-2367
15Wisniewski J R, Zougman A, Nagaraj N, Mann M. Nat. Methods, 2009, 6(5): 359-362
16Scheltema R A, Hauschild J P, Lange O, Makarov A, Mann M. Mol. Cell. Proteomics, 2014, 13(12): 3698-3708
17Glatter T, Ludwig C, Ahrné E, Aebersold R, Heck A J, Schmidt A. J. Proteome Res., 2012, 11(11): 5145-5156
18Mertins P, Mani D R, Ruggles K V, Gillette M A, Paulovich A G, Fenyo D, Ellis M J, Carr S A. Nature, 2016, 534(7605): 55-62
19Cox J, Hein M Y, Luber C A, Paron I, Nagaraj N, Mann M. Mol. Cell. Proteomics, 2014, 13(9): 2513-2526
20Paulo J A, Gigy S P. Proteomics, 2015, 15(23): 474-486
21Hebert A S, Richards A L, Coon J J. Mol. Cell. Proteomics, 2014, 13(1): 339-347
AbstractEndoproteinase LysC/trypsin sequential digestion and trypsin digestion were used in 293T cell proteomics sample preparation and the results of LysC/trypsin sequential digestion and trypsin digestion in proteomics sample preparation was systematically evaluated. It was found that the number of identified peptides and proteins increased significantly, and missed cleavage sites, especially K sites decreased dramatically through LysC/trypsin sequential digestion. And the average sequence coverage of identified proteins in LysC/trypsin sequential digestion sample was higher than that in trypsin digestion sample. Besides, different amount of enzymes was tested to select the optimal usage of enzymes in LysC/trypsin sequential digestion. This study provided the references for proteomics sample preparation.
KeywordsTrypsin; LysC; Sequential digestion; Proteomics; Liquid chromatographytandem mass spectrometry; Missed cleavage