主页 | 生物新闻 | 生物热点 | 生物技术 | 生物论文 | 生物考研 | 生物产业 | 核酸技术 | 细胞技术 | 蛋白技术 | Protocol Online | 会员中心
 
 当前位置:主页>生物热点> 正文  
从基因到先导化合物的发现之一
文章来源: 文章作者: 发布时间:2007-01-16   字体: [ ]  
 


上一篇:运用生物信息学的方法对胶质纤维酸性蛋白的初步分析   下一篇:基因传递技术踌躇前进


文/王占黎 冯华 林建成 创腾科技有限公司
  蛋白质是一切生物藉以表现生命的最重要的基本单元,是自然界存在的小型的自动机器。任何一个生命体的繁衍、新陈代谢、运动,等等,都需要数十亿蛋白质的协调行动才能得以顺利进行。为了执行特定的生物功能,每一个蛋白质分子都有一个独特的三维结构。假如一种蛋白质的空间结构发生了变化,该蛋白就失去了它应有的功能,甚至会对生物体的生命活动产生很大的影响。老年痴呆症和疯牛病的发生就是典型的例子。
  随着人类功能基因组研究的展开,科学家对于基因的研究焦点,已由基因测序转移到基因表达产物——蛋白质上。《Nature》、《Science》在2001年2月公布人类基因组草图的同时,分别发表了“And now for the proteome”和 “Proteomics in genomeland”的述评与展望,将蛋白质组学的地位提到前所未有的高度,认为蛋白质组学将成为新世纪最大战略资源 ——人类基因争夺战的战略制高点之一。分析蛋白质结构、功能及其关系也是蛋白质组计划中的一个重要组成部分。
  研究蛋白质的结构,有助于了解蛋白质的功能,了解蛋白质的作用机制以及了解蛋白质与其他分子之间的相互作用,这对于生物学、医学和药学,都有非常重要的影响。对于功能未知或全新的蛋白质分子,通过结构分析,可以进行功能注释,指导设计生物学实验来进行功能研究;而且,通过分析蛋白质的结构,确认结构域,为设计新的蛋白质或改造已有蛋白质提供可靠的依据,同时为新的药物分子设计提供合理的靶分子及结构。
  到目前为止,对于这一领域的研究方法主要分为两大类,其一是利用实验的方法来决定;其二则是利用计算机技术,利用现有理论和已知的基因序列等信息进行蛋白质的结构预测。
  根据蛋白质的状态,测定蛋白质三维结构的方法分为两大类:(1)应用X射线晶体衍射图谱法和中子衍射法测定晶体中的蛋白质分子构像;(2)应用核磁共振法(NMR)、圆二色性光谱法、激光拉曼光谱法、荧光光谱法、紫外光谱法和氢同位素交换法等测定溶液中的蛋白质构像。利用X射线晶体衍射法测定蛋白质分子的构像,结果比较可靠。但是,与溶液中的构像相比,蛋白质分子在晶体中的构像是静态的。所以,对于不稳定的过渡态的构像,不能利用蛋白质晶体进行测定。而且,很多蛋白质很难结晶,或者很难得到用于结构分析的足够大的单晶。另外,X射线晶体衍射的工作流程较长。核磁共振是指核磁矩不为零的核,在外磁场的作用下,核自旋能级发生塞曼分裂,共振吸收某一特定频率的射频(RF)辐射的物理过程。近年来,核磁共振法测定小蛋白的三维结构得到了成功的应用。NMR法不需要制备蛋白质晶体,但这种方法仅限于分析长度不超过150个氨基酸残基的小蛋白。其他方法可以测定溶液中蛋白质分子的局部构像,但很难获得蛋白质分子完整的三维结构,在应用上存在较大的局限性。
  目前应用X射线晶体衍射法和核磁共振法已测定出1万多种蛋白质及其复合物的结构,但与已测得的30多万个蛋白质序列相比,还有很大的差距,大大影响了人们对蛋白质结构和功能关系的研究,因此发展一种不依赖实验而又有一定准确性的理论蛋白质结构预测方法显得格外重要。蛋白质结构的理论预测方法都是建立在氨基酸的一级结构决定高级结构的理论基础上,大致分为以下三类:同源建模法、反向折叠法和从头预测法。通过前面介绍可知,实验方法的共同缺点是耗时,而且常受限于样本的制备技术。与实验方法相比较,理论预测的方法是通过分析蛋白质序列,由现有的资料库中获取参数,通过计算机模拟技术搭建蛋白质结构模型,对结构进行优化,并对蛋白质结构模型进行合理性评估,藉此获得蛋白质的空间结构信息,帮助解决X-射线衍射和NMR无法克服的问题,并节省了大量的时间。
 
  同源建模法
  同源建模法是蛋白质三维结构预测的主要方法。对蛋白质数据库PDB 分析可以得到这样的结论:任何一对蛋白质,如果两者的序列等同部分超过 30%(序列比对长度大于80),则它们具有相似的三维结构,即两个蛋白质的基本折叠相同,只是在非螺旋和非折叠区域的一些细节部分有所不同。蛋白质的结构比蛋白质的序列更保守,如果两个蛋白质的氨基酸残基序列有50%相同,那么约有90%的α碳原子的位置偏差不超过3埃。这是同源模型化方法在结构预测方面成功的保证。同源模型化方法的主要思想是:对于一个未知结构的蛋白质,首先通过同源分析找到一个已知结构的同源蛋白质,然后,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。这里的前提是必须要有一个已知结构的同源蛋白质。这个工作可以通过搜索蛋白质结构数据库来完成,如搜索PDB。
  同源建模法是目前一种比较成功的蛋白质三维结构预测方法。例如αB-crystallin是一种在体内广泛分布的小热休克蛋白[1],在细胞生长调控和凋亡中发挥重要作用,但它的结构以及在多种疾病中的角色还不是很清楚,对蛋白质结构的研究可以为其功能研究提供线索。因此研究人员利用 Accelrys公司的InsightII软件,通过分子模拟的方法,从同源模建到进化树的分析,对aB-crystallin蛋白的结构、功能以及作用的分子机制等,进行深入的研究,揭示细胞凋亡信号转导的分子机制[2](图1)。
  G蛋白偶联受体的研究也是一个典型的例子。G蛋白偶联受体是细胞膜表面数量最大的受体家族,承担着大量的细胞信号转导功能[3],因此成为最重要的药物靶点,目前世界上大约40%的畅销药物是针对G蛋白偶联受体的。由于目前尚无实验手段确定该蛋白的结构,研究人员也采用分子模拟技术,利用 Accelrys公司的InsightII软件,同源模建方法产生其3D模型,在此基础上进一步进行功能研究和基于结构的药物设计[4]。
  2003年爆发的急性重症呼吸综合症(SARS)所暴露出来的许多问题说明,快速应对新的传染病的能力显得越来越重要。研究人员通过 GeneAtlas在SARS基因组中找到的蛋白质靶点中,运用HMMer/Pfam进行功能注释的其中一个目标蛋白是FtsJ样甲基转移酶,采用比较同源建模的方法,以PDB编号为1ej0的蛋白质作为模板,构建这个目标蛋白的3D模型。以构建好的这个3D模型为作用靶点,以期寻找新的能够抑制SARS  FtsJ样甲基转移酶活性的化学型抑制剂[5]。
  利用同源模型化方法建立结构模型的过程包括下述几个步骤:
  1.搜索结构模型的模板。在搭建模型蛋白的模型之前,需要找出和目标序列同源且结构已知的蛋白质。同源模型化方法假设两个同源的蛋白质具有相同的骨架。为待预测的蛋白质建立模型时,首先按照同源蛋白质的结构建立模板。所谓模板是一个已知结构的蛋白质,该蛋白质的与目标蛋白质的序列非常相似。如果找不到这样的模板,则无法运用同源模型法。不同的软件具有不同的搜索工具。Accelrys公司的InsightII采用FASTA,它是第一个广泛使用的数据库搜索程序。Accelrys公司的DS Modeling 1.1采用BLAST、PSI-BLAST,通过web,或者本地安装的数据库,查找与所研究的蛋白质序列具有同源性的蛋白质。另外,InsightII的SeqFold模块通过序列和结构二者的相容性来探测相似性。因为采用的相似性基于序列和结构二者的兼容性,对于常规的序列比较软件不能检测到的两个较远同源蛋白质序列,SeqFold可以更敏感地发现它们的关系。SeqFold得到的目标蛋白可以用在Modeler或Homology等模块中,来模建蛋白质的结构[6]。
  2.序列比对。序列定位和排列是同源蛋白质预测的关键步骤,通过序列排列和比对可以确定序列保守区域,进而为下一步给SCR赋坐标作好准备。将目标蛋白质的序列与模板蛋白质序列进行比对,使目标蛋白质的氨基酸残基与模板蛋白质的残基匹配。比对中允许插入和删除操作。
  3.建立骨架。当目标序列和参考蛋白完成了序列比对以后,就可以给保守区中的氨基酸残基赋坐标。如果相应的氨基酸残基完全相同,则把参考蛋白的相应残基坐标直接拷贝给目标序列中的残基。如果残基不同,则先把目标蛋白的主链坐标拷贝给模型蛋白。在一般情况下,通过这一步建立目标蛋白质的骨架。
  4.构建目标蛋白质的侧链。可以将模板相同残基的坐标直接作为目标蛋白质的残基坐标,但是对于不完全匹配的残基,其侧链构像是不同的,需要进一步预测。侧链坐标的预测通常采用已知结构的经验数据。
  5.构建目标蛋白质的环区。一般有两种方法,即从数据库中搜索具有相同氨基酸片段,并借入其坐标直接代入和利用能量计算方法直接产生合理的原子坐标。
  6.优化模型。通过上述过程为目标蛋白质建立了一个初步的结构模型,在这个模型中可能存在一些不相容的空间坐标,因此需要进行优化,如利用分子力学、分子动力学、模拟退火等方法进行结构优化。对于能量的优化有多种方法。常用的方法是梯度下降法,其中最陡下降法是一种简单的优化算法。在最低能量搜索过程中,最陡下降法反复对能量函数进行微分,计算梯度,每次沿能量下降最多的方向前进。当搜索位置离能量极小点比较远时,用这种方法可以迅速向极小点靠近,但接近极小点时,会产生振荡,收敛速度慢。
  另一种基于梯度的方法是共轭梯度法,其计算与最陡下降法一样,但是在选择搜索方向时,不仅考虑当前的梯度,还要考虑原来的搜索方向,经过综合决定下一步搜索方向。共轭梯度法收敛的速度快,但是更容易陷入能量局部极小点。
  牛顿-拉普森方法是另一类能量优化方法。它除使用一阶微分外,还计算二阶微分,利用一阶微分确定搜索方向,用二阶微分确定沿梯度在什么地方改变方向。应用该方法能够迅速收敛,但是计算量非常大。也可以通过分子动力学来寻找具有局部最低能量的构像。
  分子动力学利用牛顿力学的基本原理,通过求解运动方程得到所有原子的运动轨迹,并根据轨迹计算各种性质。分子动力学的优势在于能够跨过较大的势垒,获得低能量的构像。在蒙特卡罗和其它理论、实验方法的支持下,分子动力学技术作为改进的模型,在搜索过程中能够避免陷入局部能量极小点。分子动力学另外一个特点是可以模拟蛋白质折叠的过程,从而深入了解蛋白质折叠的规律。蒙特卡罗是一种随机采样的方法,通过该方法可以期望找到非常接近于全局能量最优的构像。也有用模拟退火方法、遗传算法等进行蛋白质构像搜索和结构预测。
  7.模型的评价:对各种方法所得到的蛋白质结构预测结果需要进行验证,以确定预测方法是否可行,确定其适应面。评估的手段有很多,例如 Accelrys公司的InsightII和DS Modeling1.1软件都具有这样的评价功能,比如作出蛋白主链二面角的Ramachandran 分布图,可以检查分子中键长、键角以及二面角的分布,可以计算出所有残基的能量分布,可以计算分子的溶剂可及面积以及分子表面的极性和非极性分布等。另外,Accelrys公司的InsightII和DS Modeling1.1软件中的Profiles-3D程序[7]可以通过比较未知序列中的氨基酸可能采取的首选环境与模建模型中的氨基酸的环境来评估模型。蛋白质结构的错误折叠区域可以用Profiles-3D程序鉴别出来。
 
  同源建模法常用软件
  目前同源模拟的技术有很多。Accelrys公司有很多用于模建的工具,包括InsightII、DS Modeling和GeneAtlas,等等。
  InsightII提供分子建模与模拟的专业工具,是一个三维图形环境软件包,它集成了分子建模工具、开发工具、力场、模拟和显示工具,以及为生命科学的应用而特别开发的工具,帮助研究人员全面了解生物分子的结构与功能。它在蛋白质结构功能关系、生物分子模拟与计算、基于靶标结构的药物设计、生物分子核磁共振、抗体设计、教学、功能基因组以及蛋白质组等领域有着广泛的应用。InsightII软件中所提供的Modeler、 Homology、SeqFold和Profile-3D等模块可以完成同源蛋白搜索、同源模建、模型评价等功能。
  Homology基于Greer的算法在三维图形环境中提供多蛋白质结构和同源性序列的同时优化[8]。它的功能在于采用多种方法搜索蛋白质结构数据库,包括基于序列和结构的相似性,以便找到与待模建蛋白质同源的序列;同时显示和比对多个蛋白质序列,寻找结构保守区;用环区搜索和从头算法模建蛋白质环区结构;将参考蛋白质的坐标复制到模型蛋白质上;用Discover中的分子力学和动力学方法修正新结构,等等。同时,在该模块中可以用 ProStat工具将已知的X-光晶体衍射结构、NMR结构或新建的模型与已确证的结构参数进行比较。Homology的优点在于结合了完全自动的同源模建步骤,使用者通过判断可以控制所有的步骤。
  Modeler是InsightII的又一个用于同源模建的模块[9]。与Homology模块相比,这种方法能够自动地构建蛋白质的三维结构,而不需要过多的干预,因此使用起来非常方便。将未知结构蛋白质与至少一个已知结构蛋白的序列比对之后,Modeler可以利用来自经验的空间制约条件,自动地产生一个或多个完整的蛋白质模型。如果参考蛋白与目标蛋白的同源性等于或大于40%,Modeler得到的结构模型在很多方面都可以与中等分辨率的X 射线结构等同。即使只有较低的同源性,也可以得到有用的模型。
  Discovery Studio Modeling(简称DS Modeling),是Accelrys公司开发的一个可以通过基于 Windows系统的个人电脑访问到的、面向生命科学领域的分子建模和模拟环境。它服务于结构生物学家、计算生物学家、结构化学家、药物化学家和计算化学家,等等;易于学习而且功能强大,无论是计算方面的专业人员,还是这个领域的新手,都能够方便地利用这个环境。
  DS Modeling1.1集成了结构生成、原子模拟、蛋白质数据库检索与分析及分子显示等众多功能,它可以解决的问题包括:分子图形显示、同源蛋白搜索、序列比对与分析、模拟突变、同源蛋白建模、结构分析与确认、蛋白质结构优化[10]。例如DS Protein Similarity  Search可以通过web,或者本地安装的数据库,查找与所研究的蛋白质序列具有同源性的蛋白质;DS MODELER能够自动进行蛋白质同源建模、 loop区建模、序列比对、基于结构的比对、蛋白质突变;DS Protein Health利用Profiles 3D验证方法确定模建蛋白质结构的合理性与可靠性,等等。
  DS GeneAtlas是一个高通量,全自动的基因组、蛋白质组注释和分析工具,可加速新蛋白质功能预测、新药物靶点的发现和验证研究 [11]。DS GeneAtlas是一个高效率的自动化软件环境,用以预测新的目标基因的功能,并可以藉此软件分析目标基因序列,来预测该序列相对应的蛋白质的功能。DS GeneAtlas 代表Accelry公司在发掘新基因工作上的一个创新,它为生物学家带来了他们所需要的三维生化信息(例如预测蛋白质序列可能形成的结构和功能)。
  DS GeneAtlas的重要性在于它可以显示一般生物信息分析所不能提供的讯息,能够进行高通量的模建和功能注释,因此,在科学家们致力于蛋白组学研究的今天,DS GeneAtlas可以使实验室中的科学家们能够更好地确认目标蛋白的结构和功能。■
 
参考信息和参考文献:
1.Van Montfort et al. Nature Struct. Bio. v. 8 (2001) 1025-1030
2.Haley et al. J. Mol. Bio. 2000,298, 261-272
3.Speca et al., Neuron, 1999, 23 ,  487-492
4.Bertrand et al. , J. Med. Chem., 2002, 45 ,  3171-3178.
5.http://www.accelrys.com/cases/sars_genome_annot.pdf
6.http://www.accelrys.com/insight/seqfold.html
7.http://www.accelrys.com/insight/Profiles-3D_page.html
8.http://www.accelrys.com/insight/homology.html
9.http://www.accelrys.com/insight/Modeler.html
10.http://www.accelrys.com/dstudio/ds_modeling
↑返回顶部   打印本页   关闭窗口↓  
用户名: 新注册) 密码: 匿名评论 [所有评论]
评论内容:(不能超过250字,需审核后才会公布,请自觉遵守互联网相关政策法规。
 §最新评论:
 推荐文章
·细胞凋亡的研究
·RNAi
·基因治疗 Gene Therapy
·模式生物基因组计划
 
 热点文章
·细胞凋亡
·RNAi
·慢性胰腺炎的诊断与治疗
·低钾血症临床常见原因
·siRNA与RNAi综述
·细胞凋亡的研究
·[综述]蛋白质组学
·RNA干涉
 
 相关文章
·运用生物信息学的方法对胶
·基因传递技术踌躇前进
·基于生物大分子结构的先导
·模式生物基因组研究策略
·蛋白质组学在植物科学研究
·科学家发现支配线粒体运动
·蛋白芯片检测技术
·DNA微阵列的难题
 
鄂ICP备06020023号