实验目的
熟悉蛋白质序列和结构的主要分析内容在实践中逐步理解蛋白质序列和结构的主要分析算法的基本原理
实验内容
综合使用多种在线工具,对蛋白质的一级、二级和三级结构进行分析和预测综合使用多种在线工具,对蛋白质的跨膜结构、翻译后修饰、亚细胞定位等进行分析和预测
实验题目
第一题:nanog分析
nanog是2003年5月发现的一种转录因子,是一个有助于胚胎干细胞自我更新的关键因子,被认为在胚胎干细胞的全能性维持中起关键作用。 人源nanog基因,通常写成nanog1,位于12号染色体上。针对该基因(ay230262),请完成以下分析:
预测该基因编码产物的亚细胞定位。(至少使用两种预测方法,并比较不同方法的预测结果是否一致)人nanog基因产物是否是糖蛋白?什么类型的糖蛋白?分析人nanog基因产物的亲水性和疏水性,列出最亲水和最疏水的位点。
第二题:甲虫基因编码的蛋白质分析
分析一个甲虫基因(af422804)编码的蛋白质的化学性质和结构特点(请注明分析方法名称):
等电点是多少?分子量是多少?是否含有pfam保守结构域?如有,列出登录号。是否膜蛋白质?如果是膜蛋白质,请注明跨膜结构位点。是否具有gpi固定(anchor)的蛋白质?预测该蛋白序列的二级结构,并简述预测结果(至少使用两种预测方法,并比较不同方法的预测结果是否一致);使用swiss-model 预测该蛋白质序列的三级结构,并简述预测结果;该蛋白在alphafold db中是否有预测结果?如有,简述预测结果。
实验过程
nanog分析
预测亚细胞定位
下载蛋白质序列
首先在ncbi上面检索ay230262这个基因,然后下载其编码的蛋白质的序列信息。
图1 ncbi上nanog基因的信息
图2 蛋白质序列数据
wolf psort
wolf psort是用于蛋白质亚细胞定位预测的psort ii程序的扩展。wolf psort将蛋白质氨基酸序列转化为数值定位特征。转换特征后,使用简单的k近邻分类器进行预测。在网站上,每个预测的证据以两种方式显示:与查询的定位特征最相似的已知定位蛋白质列表,以及关于个别定位特征的详细信息的表格。而且为了方便起见,还提供了查询到相似蛋白质的序列比对以及到uniprot和gene ontology的链接。
网站在这:https://wolfpsort.hgc.jp/
图3 用wolf psort进行预测
从下图的预测结果可以看到,nanog最有可能位于细胞核。这个结果有三个部分:
第一行是预测结果的总结。亚细胞定位被缩写为4个字符,带有下划线的就是双重定位,后面的数字大致可以认为是查询序列的最近邻
下面这个表是knn算法的邻居列表,显示了与查询蛋白质相似的蛋白质列表的一部分。对于每个邻居,如下所示:uniprot id、定位位置、定位特征与查询序列之间的距离、占查询序列的百分比(the percent identity to the query)、其uniprot的链接、来自uniprot的亚细胞定位以及其他可用的定位信息。
再下面是标准化后的特征表。这些值被标准化为相对于wolf psort训练数据的百分位数。蓝色显示的邻居值与查询值的差在10%以内,而红色显示的邻居值与查询值的差在20或更多。
horton p, park kj, obayashi t, fujita n, harada h, adams-collier cj, nakai k. wolf psort: protein localization predictor. nucleic acids res. 2007 jul;35(web server issue):w585-7. doi: 10.1093/nar/gkm259. epub 2007 may 21. pmid: 17517783; pmcid: pmc1933216.
wolf psort: protein localization predictor - pmc (nih.gov)
图4 wolf psort预测结果(neighbor list)
图5 wolf psort预测结果(localization feature table)
yloc
yloc是一种可解释的蛋白质亚细胞定位预测系统。除了预测的位置,yloc给出了为什么做出这一预测的原因,以及蛋白质序列的哪些生物学特性导致了这一预测。此外,置信度估计有助于用户将预测评价为可信。yloc 能够准确预测多靶标蛋白的位置。
网站在这:yloc (uni-tuebingen.de)
sebastian briesemeister, j???rg rahnenf???hrer, oliver kohlbacher, yloc—an interpretable web server for predicting subcellular localization, nucleic acids research, volume 38, issue suppl_2, 1 july 2010, pages w497–w502,
https://doi.org/10.1093/nar/gkq477
图6 使用yloc进行预测
从下面的结果可以看到,nanog最有可能位于细胞核,和wolf psort的结果一致。
第一个表格是显示了yloc的预测各定位的概率。亚细胞位置按其概率排序,从最可能的位置开始。最可能的位置或位置组合用红色突出显示。
最相似的蛋白质是来自swiss-prot 42.0的蛋白质,与所查询的蛋白质具有最高的局部序列同一性。其中,与这些蛋白质相关的go项被用于预测。然而,由于它是最相似的蛋白质,我们在这里再次列出它。
图7 最可能的定位和最相似的蛋白
下表列出了这个特定yloc预测最重要的特征,从对预测影响最大的属性开始。一个(双)加号表示属性(强烈)支持此本地化的决策,而一个(双)减号表示属性(强烈)支持反对此本地化的决策。将鼠标光标放在一个字段上,查看来自该定位的蛋白质与查询蛋白质具有相同特征值的比例。
常用缩写:cy = ‘细胞质’,mi = ‘线粒体’,nu = ‘细胞核’,sp = ‘分泌通路’。
图8 特征的影响
deelloc 2.0
deeploc 2.0预测真核生物蛋白质的亚细胞定位。deeploc 2.0是一个多标签预测器,这意味着能够预测任何给定蛋白质的一个或多个定位。它可以区分10个不同的定位:细胞核,细胞质,细胞外,线粒体,细胞膜,内质网,叶绿体,高尔基体,溶酶体/液泡和过氧化物酶体。此外,deeploc 2.0可以预测对亚细胞定位预测有影响的排序信号的存在。
deeploc 2.0相对于1.0整体模型性能更好,由于使用了注意力机制,使得9种信号预测更准确。
vineet thumuluri, josé juan almagro armenteros, alexander rosenberg johansen, henrik nielsen, ole winther, deeploc 2.0: multi-label subcellular localization prediction using protein language models, nucleic acids research, volume 50, issue w1, 5 july 2022, pages w228–w234
https://doi.org/10.1093/nar/gkac278
图9 deeploc 2.0的优点
下面开始预测,网站在这里:deeploc - 2.0 - services - dtu health tech
图10 使用deeploc 2.0进行预测
从下图结果也可以看到是位于细胞核的。
图11 deeploc 2.0预测结果
排序信号重要性显示了查询蛋白中对预测具有较高重要性且与排序信号高度相关的位置的标志状图。
图12 信号重要性
总结
综上所述,这三种发表在《nucleic acids research》上的方法,均预测nanog位于细胞核。
是否是糖蛋白?什么类型的糖蛋白?
glycoep
首先使用糖基化预测工具——glycoep进行预测。
图13 用glycoep进行预测
图14 glycoep预测结果
从结果来看是没有n连接的,然后预测o连接同样是没有结果。
netoglyc、netnglyc
接下来使用netoglyc和netnglyc进行预测。
图15 用netoglyc进行预测
图16 netoglyc预测结果
图17 netnglyc预测结果1
图18 netnglyc预测结果2
由上面的结果可以看到,这个蛋白是糖蛋白,n连接和o连接都存在。
亲水性和疏水性
使用protscale进行分析。
图19 protscale主界面
从下图可以知道20种氨基酸的亲疏水性,大于0为疏水,小于0为疏水。
图20 protscale结果
亲水氨基酸共有153个,占比0.59。
图21 亲疏水性氨基酸占比
图22 亲疏水性氨基酸位置图
由下图可以看到最疏水的氨基酸位于105位点,最亲水的则位于153位点。
图23 最亲水和最疏水的氨基酸
甲虫基因
首先在ncbi上下载其蛋白质序列。
图24 蛋白质信息
等电点?分子量?pfam保守结构域?
我们在protparam上进行计算,这个工具如其名,就是计算蛋白质的参数。
图25 protparam主界面
由计算结果可知,等电点为7.52,分子量为74351.58。
接下来使用pfam分析蛋白质的保守结构域。
图26 pfam主界面
图27 pfam结果
由上图可知:共有三个显著的保守结构域,分别是abc2_membrane (pf01061)、abc_tran (pf00005)、abc2_membrane_7 (pf19055)。
膜蛋白质?如是则注明跨膜结构位点
使用tmhmm-2.0预测膜整合蛋白的跨膜区。
网站在这:tmhmm - 2.0 - services - dtu health tech
图28 tmhmm主界面
从下面的结果可以看到,是膜蛋白质,下图的绿色框是跨膜结构位点。紫色的也是跨膜位点。
图29 tmhmm结果
具有gpi固定(anchor)的蛋白质?
使用big-pi进行预测。
网站在这:gpi prediction server (imp.ac.at)
图30 big-pi主界面
由下图可知,没有gpi固定的蛋白质。
图31 big-pi结果
eisenhaber b., bork p., yuan y., loeffler g., eisenhaber f. “automated annotation of gpi anchor sites: case study c.elegans” tibs (2000) 25 (7), 340-341
预测二级结构
使用jpred进行预测。
图32 jpred主界面
图33 jpred结果
使用psipred进行预测。
图35 psipred主界面
由下图可以看到在序列的前半段,跨膜螺旋和strand出现频率接近,后半段则主要是α螺旋。
图35 psipred结果
对比两种方法的结果,从宏观上来看,α螺旋的分布两者是接近一致的,从微观上来看,117-125位都预测为了α螺旋,这是两个方法预测的第一个比较长的螺旋,序列后半段两者预测的也很接近。综上,可以认为两种方法预测的大体一致。
预测三级结构
使用swiss-model进行预测。
图36 swiss-model主界面
图37 swiss-model结果概况
gmqe(全局模型质量估计)是一种结合目标-模板对齐方式和模板搜索方法的属性的质量估计。所得的gmqe分数表示为0到1之间的数字,反映了使用该对齐方式和模板构建的模型的预期准确性以及目标的覆盖范围。数字越高表示可靠性越高。可信度范围为 0-1,值越大表明质量越好。
按照gmqe从大到小进行排序,选择第一个模型。模型的指标有很多,这里最重要的是:qmean。qmean的得分可与相似大小的实验结构所期望的得分相媲美。0值附近的qmean 得分表明模型结构与相似大小的实验结构之间具有良好的一致性。分数为-4.0或以下表示模型的质量较低。区间-4-0,越接近0,评估待测蛋白与模板蛋白的匹配度越好。
图37 gmqe最大的模型
可以看到qmean平均值是0.63,在350-400这个区间最小,预测的最好。
图38 残基-qmean
我们对拉氏图的解读,主要看模型氨基酸在几个区的分布情况。一般来说落在允许区和最大允许区的氨基酸残基占整个蛋白质的比例高于90%的,我们可以认为该模型的构象符合立体化学的规则。
坐上角是β折叠,左边中间是α螺旋,中间偏右是左旋α折叠。
由拉氏图可以知道,预测的蛋白质符合立体化学规则。
图39 拉氏图
这个蛋白质在alphafold数据库中。网址:alphafold protein structure database (ebi.ac.uk)
图40 蛋白在alphafold数据库中
其实这个蛋白质是可以在uniprot上搜索到的,也可以在uniprot上找到其通过alphafold预测的三维结构
图41 蛋白也在uniprot数据库中
讨论
1. 结合算法原理,分析不同蛋白质二级结构预测结果的差异。
蛋白质的二级结构预测的基本依据是:每一段相邻的氨基酸残基具有形成一定二级结构的倾向,是一个模式分类问题。预测的目标是判断每一段中心的残基是否处于α螺旋、β折叠和转角(或其他状态)之一的二级结构态,即三态。
二级结构预测的方法大体分为三代:
统计学方法 从有限的数据集中提取各种残基形成特定二级结构的倾向,以此作为二级结构预测的依据。
基于单个氨基酸残基统计分析。如:chou-fasman法 通过统计分析,获得每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。 基于氨基酸片段的统计分析。如:gor方法 gor是一种基于信息论和贝叶斯统计学的方法,将蛋白质序列当作一连串的信息值来处理。不仅考虑被预测位置本身氨基酸种类的影响,而且考虑相邻残基种类对该位置构象的影响,准确率大约为65%。 基于立体化学原则的物理化学方法 比如lim方法。因为氨基酸的理化性质对二级结构影响较大,在进行结构预测时要考虑氨基酸残基的物理化学性质。比如疏水性、极性、侧链基团的大小等。 神经网络与人工智能 结构预测还有同源分析法,也就是将待预测的片段与数据库中已知二级结构的片段进行相似性比较,利用打分矩阵计算出相似性得分。如果数据库中有相似性大于30%的序列,则预测准确率可以大大上升。 可以对同源分析之后的结果构建一个神经网络模型进行预测。
在本次实验中,我们用了jpred和psipred方法进行预测。
jpred4使用了jnet算法,是一个输入多序列比对的结果(可用psiblast和hmm)到神经网络中的预测方法。
图42 jpred算法流程图
drozdetskiy a, cole c, procter j, barton gj. jpred4: a protein secondary structure prediction server. nucleic acids res. 2015 jul 1;43(w1):w389-94. doi: 10.1093/nar/gkv332. epub 2015 apr 16. pmid: 25883141; pmcid: pmc4489285.
psipred(psi-blast based secondary structure prediction )也是一个利用神经网络的方法。
图43 psipred论文
这两种方法用的数据和方法比较相近,从实验的结果来看也比较相近。
2. 蛋白质的类型、序列长度等哪些自身因素有可能影响蛋白质结构预测的效果?
蛋白质类型:不同类型的蛋白质可能具有不同的结构特征,因此对于不同类型的蛋白质,结构预测的效果也可能不同。例如,对于膜蛋白来说,它们的结构预测效果可能会比普通的水溶性蛋白要差一些。蛋白质序列长度:蛋白质的序列长度也可能会影响结构预测的效果。通常来说,蛋白质序列越长,结构预测的效果就越差。这是因为蛋白质序列越长,就意味着它可能具有更复杂的结构,从而导致结构预测的难度更大。其他自身因素:疏水性、氢键、二硫键的形成、静电作用、范德华力以及溶剂作用。可以针对范德华力、氢键、溶剂、静电和其它力对一个折叠蛋白总体稳定性的相对作用来建立能量函数,找到能量函数的最低状态。
3. 为什么需要对蛋白质的亚细胞定位进行预测?
亚细胞定位是指某种蛋白或某个基因表达产物在细胞内的具体存在部位,如在胞核,胞浆内,细胞膜或某一特定细胞器上存在。蛋白分布在不同细胞的不同部位,对蛋白的亚细胞定位分析有助于蛋白功能研究的初步判断,同时为理解基因的作用机制提供研究方向。简而言之就是有助于了解蛋白质功能与互作。
4. 通过动手实践分析,你对哪个分析背后的基本原理有了更深入的理解?
wolf psort用了之前psort的一些特征,以及新加进去的氨基酸组成的特征,然后利用加权的knn进行分类。使用了最相关的特征,使得模型不容易过拟合,同时也使得模型更容易解释。 预测的难度更大。 3. 其他自身因素:疏水性、氢键、二硫键的形成、静电作用、范德华力以及溶剂作用。可以针对范德华力、氢键、溶剂、静电和其它力对一个折叠蛋白总体稳定性的相对作用来建立能量函数,找到能量函数的最低状态。
3. 为什么需要对蛋白质的亚细胞定位进行预测?
亚细胞定位是指某种蛋白或某个基因表达产物在细胞内的具体存在部位,如在胞核,胞浆内,细胞膜或某一特定细胞器上存在。蛋白分布在不同细胞的不同部位,对蛋白的亚细胞定位分析有助于蛋白功能研究的初步判断,同时为理解基因的作用机制提供研究方向。简而言之就是有助于了解蛋白质功能与互作。
4. 通过动手实践分析,你对哪个分析背后的基本原理有了更深入的理解?
wolf psort用了之前psort的一些特征,以及新加进去的氨基酸组成的特征,然后利用加权的knn进行分类。使用了最相关的特征,使得模型不容易过拟合,同时也使得模型更容易解释。
随着近年来计算机算力的显著提升,计算机对于微观科学问题的解决发挥了非常重要的作用。目前理论、模拟和实验可谓解决科学问题的三辆并驾齐驱的马车。今天以kalp15蛋白为例,主要介绍基于gromacs进行膜蛋白体系的构建和模拟。
1.?蛋白结构预处理。首先通过可视化软件(vmd、pymol等)检查结构文件中的分子成分,去除不需要的组分。然后通过pdb2gmx命令讲原始结构文件进行转换并选择相应力场。
2.?选择合适的膜组分。根据自身需要选择合适的磷脂成分(https://people.ucalgary.ca/~tieleman/download.html?可下载相关结构和力场)。并且在该步骤利用蛋白和磷脂力场构建需要的topol文件。
3. 选择合适的蛋白和磷脂取向。由于膜蛋白的取向和在膜上的高度是固定的,因此要根据文献报道确定合适的取向和位置。该步骤可使用trjconv和editconf等命令可以进行构象的调整。如图所示
4.?磷脂对蛋白质的包裹。由于上个步骤中构建的体系仅仅是调整了取向,磷脂还是非常松散,因此需要将磷脂进行收缩堆积。这里参考使用了inflategro方法。通过genrestr命令对蛋白质进行位置限制,保证蛋白质位置不变,仅仅改变磷脂位置,让其自身进行缩放,可缩放多次,直至达到结构的设定数值。
5.?模型构建完成之后,需要使用genion和solvate命令添加离子和水。但是此时需要注意,该步骤填充的水和离子会出现双层膜之间,这种结构是不合理的,需要手动去除双层膜熟睡核心的水分子。完成后结果如图所示:
6.?随后就可以通过grompp命令产生tpr文件并使用mdrun命令进行计算。
7.?结果分析:对于蛋白可以采用二级结构、rmsd等参数刻画蛋白质特征,对于膜或者磷脂来说则可以通过序参数表征膜的有序程度例如有序相和无序相等。如图所示:
也可以通过density命令分子膜的密度等特征。如图所示:
在膜蛋白体系的模拟中,有许多其他的小问题需要注意。例如压力耦合的设置、原子重叠甚至系统崩溃等问题,需要针对性的进行检查和排除。
香港大学xiaoyu li博士、重庆大学yizhou li教授和上海第二军医大学yan cao教授共同组成的联合研究团队开发了一种针对活细胞膜蛋白的药物发现新方法,并在著名化学期刊《nature chemistry》发表了该方法的发明过程和应用。 膜蛋白在生物学中起着重要的作用,许多膜蛋白是医药工业中研究的热点。李博士团队开发的方法提供了一种有效的方法来发现新的抗膜蛋白的配体和抑制剂,而传统方法在很大程度上仍然难以解决这些问题。
细胞表面的膜蛋白具有多种生物学功能,对细胞和生物体的生存至关重要。许多人类疾病与异常的膜蛋白功能有关。事实上,膜蛋白占所有fda批准的小分子药物靶点的60%以上。g蛋白偶联受体(gpcr)作为细胞表面最大的受体家族,是34%的临床药物的靶点。然而,尽管意义重大,针对膜蛋白的药物发现是出了名的挑战,主要是由于其自然栖息地的特殊性质:细胞膜。此外,膜蛋白也很难以孤立的形式进行研究,因为它们往往失去基本的细胞特征,并可能失活。事实上,长期以来,膜蛋白在医药行业都被视为“不可用药”靶标。
近年来,dna编码化学文库(dna-encoded chemical library,del)的出现成为一种强有力的药物筛选技术。为了简化,我们以图书馆作比方,在图书馆每本书都有一个目录号,并在书架上用一个特定的位置进行空间编码。类似地,在del中,每一种化合物都附有一个独特的dna标签,作为记录化合物结构信息的“目录号”。通过dna编码,所有的文库化合物可以混合并同时针对靶点进行筛选,以发现能够调节靶点生物功能的化合物,例如抑制在恶性肿瘤中异常活跃的蛋白质。del可以包含惊人的大量的测试化合物(数十亿甚至万亿),del筛选可以在一个普通的化学实验室在短短几个小时内进行。今天,del已经被世界上几乎所有主要的制药工业广泛采用。然而,del在检测活细胞膜蛋白方面也遇到了很大的困难。
2个关键发现:跟踪和提升
为了在活细胞上应用del,团队克服了两个障碍。首先,细胞表面不像气球那样是一个光滑的凸面形状;它极其复杂,有数百个不同的生物分子,拓扑结构崎岖;因此,在细胞表面定位所需的目标就像在茂密的热带森林中找到一棵树。该团队已经克服了这个“目标特异性”的问题,通过使用他们以前开发的方法:dna程序亲和标记(dpal)。该方法使用基于dna的探针系统,该系统可以特异性地将dna标签传递到活细胞上所需的蛋白质,并且dna标签用作指示靶特异性del筛选的信标。换句话说,研究小组首先在靶点上安装了一个“跟踪器”,以实现筛查的特异性。
第二个挑战是目标丰度。通常,膜蛋白以纳摩尔到低微摩尔的浓度存在,远远低于在一个文库中捕获数十亿非结合物中的结合物的高微摩尔浓度。为了解决这个问题,研究小组采用了一种新的策略,即在目标蛋白和实际文库的dna标签中使用互补序列,使文库能够在接近目标的地方杂交,从而“提高”目标蛋白的有效浓度。也就是说,“跟踪器”不仅可以帮助库定位目标,而且可以产生一种吸引力,使库集中在目标周围,而不会被不具约束力的群体分散注意力。
在新发表的文章中,研究小组报告了他们详细的方法学发展,他们还通过筛选一个3042万个针对活细胞上叶酸受体(fr)、碳酸酐酶12(ca-12)和表皮生长因子受体(egfr)的复合文库,证明了该方法的通用性和性能,这些都是抗癌药物发现的重要靶点。这种方法有望广泛应用于许多膜蛋白。例如,经典的药物靶点,如gpcrs和离子通道,可以在活细胞环境中重新研究,通过利用del的力量来发现新的药物发现机会。
xiaoyu li博士说:“我们期望这种方法的实用性不仅限于药物的发现,而且在学术研究中探索具有挑战性的生物系统,如寡聚膜蛋白复合物和细胞间通讯。”
合著者来自重庆大学的yizhou li教授说:“这种方法有可能促进膜蛋白的药物发现,因为dna编码的化学文库具有巨大而复杂的化学多样性。”
来自上海第二军医大学的曹教授补充说:“这项技术是表征配体-靶相互作用的有效工具;它将为高通量筛选方法的发展提供新的曙光,从而促进以膜蛋白为靶点的配体的捕获。”
原文检索:selection of dna-encoded chemical libraries against endogenous membrane proteins on live cells
推荐阅读: 1.2020ips细胞研究进展综述
2.ips细胞技术难点以及ips相关实验材料
还没有评论,来说两句吧...