范文大全

生物信息学分析，生物信息学分析

作者: 猫宁　发布日期：2024年03月14日

本文目录一览：

★、生物信息学分析篇1

★、生物信息学分析篇2

★、生物信息学分析篇3

★、生物信息学分析篇4

生物信息学分析篇1

　　随着现代计算机信息技术的快速发展，生物信息学与计算机技术的结合度也越来越高，在生物信息学的数据库中就很好地应用了计算机信息技术，而数据库的建立与完善对生物信息学的发展也具有重要的作用，本文中主要对数据库的应用进行分析。

　　【关键词】生物信息学数据库应用

　　现代社会是一个信息化的社会，人们每天进行各种信息的交流愈加频繁，在这个信息化的时代，计算机以及信息技术为人们信息的交流提供了重要的工具。生物信息学数据库的建设与应用就是利用了现代的计算机信息技术对生物信息进行存储、检索与分析。

　　1 生物信息学数据库

　　生物信息学是建立在应用数学、计算机科学以及生命科学等多学科基础之上的交叉学科，这门学科的主要任务就是探究如何高效地获取生物学信息，对信息进行处理与分析，存储信息以及应用生物学信息。数据库技术主要解决了将世界海量的生物学数据、已有的研究成果以及技术信息等收纳并存储在数据库中，这样可以大大方便人们的生物研究与信息的查询与借鉴。

　　2 数据库的分类与特点

　　生物信息学数据库中的数据种类极为多样，其数据库中的信息覆盖面也极为广泛，数据信息很全面；数据库的信息更新速度快，信息的内容更新的也很丰富；数据库的规模在不断地扩大，数据库的复杂性也在不断增加；在使用上更加地网络化、便捷化。

　　2.1 一级数据库（一次数据库）

　　在生物信息学数据库中的一级数据库主要包括了核酸和蛋白质一级结构序列数据库，基因组数据库以及生物大分子（主要为蛋白质）的三维空间结构数据库，通常称为基本数据库。一级数据库的明显优势就是在这个数据库中数据的信息量很大，海量信息存储在数据库中并且数据每天都在增加，数据的信息也会及时更新并且更新速度很快，一级数据库的用户量也很多并且用户面也很广泛。因此以及数据库的建立是需要性能高的、磁盘的容量很大的并且拥有专门的数据库信息管理系统的计算机作为载体来支撑这些功能的完成。另外，数据信息还需要一些大型的商业软件作为数据管理的支撑。例如，在我国的生物信息学研究所中使用的是Oracle数据库系统，这种软件管理系统可以较好地将数据进行管理与分类。研究所中针对基因组的数据库进行管理以及运行则主要是基于Sybase数据库系统来完成的。

　　2.2 二级数据库

　　所谓的二级数据库主要是以一级数据库以及文献资料为基础建立起来的数据库，也称专业数据库。二级数据库相较于一级数据库，其数据信息的容量也小得多，数据信息的更新速度也相对要慢一些。二级数据库不需要大型的商业软件来支撑数据库的管理，可以直接使用一些基本的浏览器，如web浏览器。二级数据库有很多种类，例如，基于核酸数据库建立的二级数据库中有真核基因顺式调控元件和反式作用因子数据库的TransFac数据库，以及真核基因启动子数据库EPD，密码子使用表数据库CUTG等。基于三维空间结构为基础构建的数据库有蛋白质二级结构构象参数数据库DSSP，已知空间结构的蛋白质家族数据库FSSP等。

　　3 生物信息学数据库的应用

　　3.1 序列的比较

　　所谓的序列的比较主要是指将两个序列中的各个元素放在一起然后按照对应等同的关系对元素进行有关的排列。对于两个序列中共有的那些排列顺序表示的是这两个序列的相似程度是较高的，是对序列的一种较为定性的描述。对于最优的排列主要是反应在这两个序列中的最大相似程度以及最少相异处，现在较为普遍寻找最优排列的方法是通过动态的规划算法来寻找最优序列。一般来说，对于一个新的序列以及数据库中的某个序列的比较是可以在非常短的时间内就可以比较出来的，但是由于基因数据库中的数据极为繁多，因此在这个序列中的比较会相对花费较长的时间才可以比较出来，尤其是逐个对比的时候，所需要的时间更长。所以，现在对于基因数据库中的序列的比较主要是使用搜索计较算法来进行序列的比较。另外，关于序列的搜索主要是有两种使用较为普遍的使用程序，一个是BLASR程序，另外一个是FASTA程序，这两个程序在实践应用中是比较成功的，其可以根据给定的序列，然后在基因数据库中快速地找出一些同源的序列，进而提高搜素与比较的速度。例如，在BLASR这个程序中主要使用的是一种对于序列的数据进行局部的对比与分析，这可以较快找出一些同源的序列，然后进行比较找出较优的序列，因为这种程序可以较快提高比较速度，软件的使用性能也不错，因而在实践中应用度较广。

　　3.2 数据挖掘技术

　　随着生物信息学的数据库的数据在飞速增长，怎样在海量的信息中提取出用户需要的信息成为一个问题的关键，也是在生物技术信息数据库的应用中需要解决的一个问题。另外，如何在已有的数据信息中以及从基因数据库中识别出编码的蛋白质的基因，如何对识别的基因进行多种信息的表达与控制，如何解读出生物的遗传密码，分析出蛋白质的相关结构以及功能等都是需要面对以及解决的问题，也在当下生物信息学数据库中面临着的比较棘手的困难。针对上述问题，在实践应用中比较常用的是一种数据的挖掘技术。这种信息挖掘技术可以高效地从数据库的海量信息中挖掘出有效的信息或者生物知识。这种数据挖掘的技术主要就是从数据库中这些海量的信息、随机的信息数据中提取出一些人们以前不知道的但确实是有用的信息来提供给用户使用。用户通过这种技术可以高效地找出自己需要的信息与知识，因此这种技术具有很强的应用性，值得推广与应用。

　　4 结束语

　　关于生物信息学数据库以及应用方面还有很多需要探究的方面，本文主要是对其进行了一些简单的介绍，并没有很详细的延展开来，需要在今后继续分析与研究。但可以肯定的是很多的生物技术的研究都是需要数据库的支撑来促进世界生物技术的发展与进步。

　　参考文献

　　[1]赵屹，谷瑞升，杜生明。生物信息学研究现状及发展趋势[J]。医学信息学杂志。2012，33（5）：2-6.

　　[2]孙清鹏，贾栋，万善霞。生物信息学应用教程[M]。北京：中国林业出版社。2012：23-56.

生物信息学分析篇2

　　【关键词】生物信息学；2型糖尿病；SLC30A8

　　【Abstract】 Objective To investigate the structure and function of type 2 diabetes gene (SLC30A8) by bioinformatic methods。 Methods Based on the human genome resource database， the programs of BioEdit， DANMAN and on line tools SMART， MHMM Server v。 2.0， NetPhos2.0 Serve， 3djigsaw were used for the analysis of protein basic characters， 3D structure and function prediction。 Results The protein of gene SLC30A8 encoding was a transmembrane protein，it was important to transport zinc。 Conclusions Protein encoded by SLC30A8 gene probably regulates and controls insulin secretion。

　　【Key words】 Bioinformatics； Type 2 diabetes； SLC30A8

　　众多研究显示，遗传因素在2型糖尿病(T2DM)发病中起着非常重要的作用〔1，2〕，但由于T2DM系多基因遗传病，研究的进展非常缓慢，直到2005年，不管是采用候选基因法还是连锁定位克隆法，只有极少数几个T2DM的易感基因在一些种族的研究中得到重复验证，而它们仅轻度增加T2DM的发病风险〔3〕。近2年多来，随着高通量SNPS检测技术的出现和全基因组关联(GWA)研究策略的运用，T2DM遗传学的研究取得了一些突破性进展，美国和欧洲多个基因研究组织采用全基因组分析法对1 464例T2DM患者和1 467例糖耐量正常个体的基因结构进行了系统研究，确认了几个与糖尿病相关的新基因位点——TCF7L2、SLC30A8、CDKN2A、CDKN2B、GF2BP2、CDKAL1〔4〕，这些基因的功能和调控机制还不十分清楚。在国内，邬莹等〔5〕研究发现在中国汉族人群中，CDKAL1、CDKN2A/B、SLC30A8等基因上的数个SNP位点与T2DM风险显著相关。SLC30A8基因也是中国人T2DM的一个易感基因，但对SLC30A8基因的研究还不够深入。因此，本文利用生物信息学工具和数据库，对SLC30A8进行分析，研究SLC30A8基因的功能，了解中国人糖尿病的遗传学基础，对预防和控制糖尿病具有重要的理论和临床意义。

　　1 材料与方法

　　1.1 材料人类糖尿病基因SLC30A8核苷酸序列来源于已经提交到GenBank数据库(GI：224589820)的序列。

　　1.2 SLC30A8基因结构分析及SLC30A8基因编码蛋白质的理化性质分析通过NCBI的ORF Finder、Protparam、Computer pI/MW确定其完整编码框并预测蛋白质的理化性质；信号肽序列分析采用SignalP工具；蛋白质翻译后修饰的糖基化位点和磷酸化位点分析分别采用DictyOGlyc在线软件和NetPhos 2.0 Server分析；氨基酸序列的同源性比对用ClustalW在线工具完成，通过蛋白分析专家系统Expasy所提供的在线分析工具ProtScale分析蛋白的疏水性。

　　1.3 SLC30A8基因编码蛋白质的结构和功能分析利用互联网ExPaSy数据库进行SLC30A8蛋白质的跨膜结构域分析；利用PUMA2服务器的SOPM软件进行蛋白序列的二级结构的分析；利用ExPasy的3djigsaw工具(bmm。icnet。uk/servers/3djigsaw/)向蛋白质立体结构数据库PDB(Protein Data Bank)提交蛋白质的序列；利用RasMol软件显示蛋白的三维分子结构。利用在线工具TMHMM分析蛋白质的跨膜结构域；利用COILS进行卷曲螺旋分析；利用Pfam进行蛋白的结构域功能分析〔6〕。

　　2 结果

　　2.1 SLC30A8在染色体上的定位及基因结构人类糖尿病基因SLC30A8的Gene ID是169 026，定位在8q24.11.SLC30A8基因核苷酸序列全长41 617 bp(NC000008.9)，含8个外显子。mRNA序列长5 373 bp，编码369个氨基酸的蛋白质(NP776250)，有2个PolyA信号区域分布位于1 933～1 938、 5 353～5 338，5个PolyA位点分别位于1 955、1 961、2 750、2 754、5 373.见表1.表1 SLC30A8外显子序列和对应的mRNA序列

　　2.2 SLC30A8基因编码的蛋白基本性质分析

　　2.2.1 开放阅读框(ORF)分析 ORF从第231个核苷酸开始，终止于第1 340个核苷酸，由其推导的氨基酸序列以甲硫氨酸为起始氨基酸，长为369个氨基酸。

　　2.2.2 疏水性分析疏水性是氨基酸的一种重要性质，疏水性氨基酸倾向于远离周围水分子，将自己包埋进蛋白质的内部，这一趋势加上空间立体条件和其他一些因素最终决定了一个蛋白质折叠形成的三维空间构象〔7〕。通过分析可以得到蛋白质的亲疏水区域，这一结果一方面为二级结构预测结果提供参考，另一方面还可为结构域及功能域的划分提供依据。ProtScale预测结果表明：疏水性最大值为3.044，最小值为-2.889(图1)。

　　图1 SLC30A8氨基酸序列的疏水性2.2.3 信号肽、跨膜结构域及翻译后修饰分析进行信号肽分析有助于蛋白质功能域的区分及蛋白质细胞定位。根据SignalP分析，蛋白质C分值、Y分值和S分值分别在248、157和150位点，分别为0.142、0.228和0.833，其信号肽计算结论为“NO”，表明其N端不含信号肽(图2)，推测其不是分泌蛋白。图2 SLC30A8氨基酸序列的信号肽预测分析

　　跨膜结构域是膜中蛋白和膜脂相结合的主要部位，它可能作为膜受体起作用，也可能定位于膜的锚定蛋白或离子通道蛋白等，通过跨膜结构域预测可以正确认识蛋白质结构、功能及在细胞中的作用部位。笔者利用通过TMPRED服务器分析，表明该蛋白质是一个6次跨膜的蛋白质，在4和5螺旋之间有一个富含组氨酸的环(图3)。用Smart对 SLC30A8基因的产物进行蛋白质序列结构功能域分析，结果表明蛋白质含有2个N糖基化位点，2个N酰基化位点。NetPhos 2.0Server磷酸化位点分析结果表明：分值>0.5的磷酸化位点有：丝氨酸(Ser)磷酸化位点8个、苏氨酸(Thr)磷酸化位点1个、酪氨酸(Tyr)磷酸化位点2个，计11个磷酸化位点，这些位点均匀分布于整个多肽链中。见图4.图3 SLC30A8氨基酸序列的跨膜结构域分析图4 SLC30A8氨基酸序列的磷酸化位点分析　图5 SLC30A8蛋白质三级结构的同源建模2.3 基因编码蛋白质结构分析

　　2.3.1 三级结构构建与功能域分析图5可见，三级结构是蛋白质结构预测的最终目的。要充分研究蛋白质的功能，就需把蛋白质的高级结构研究清楚。从氨基酸序列预测三级结构的技术很多，其中之一是同源建模，它通过比较未知结构蛋白质序列与已知结构的蛋白质序列来预测蛋白质结构，可以通过同源建模以击中序列的已知结构为模板，对蛋白质进行精确的结构模型构建。作者利用Expasy的3djigsaw工具预测蛋白质的三维结构，利用Ramol软件察看预测结果。

　　hhhhhhhhcccccccccccchhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhcccc

　　WHRAEILGALLSILCIWVVTGVLVYLACERLLYPDYQIQATVMIIV

　　eeeeeeeeeeehhhhhhhhhhhhhhhhhhhccccchhhhhhhhhhhhhhhhhhhhhh

　　SSCAVAANIVLTVVLHQRCLGHNHKEVQANASVRAAFVHALG

　　hhhhhhhhheeeccccccchhhhhhhhhhhhhhhhhhhhhhhheeehcccccccc

　　DLFQSISVLISALIIYFKPEYKIADPICTFIFSILVLASTITILKDFSILL

　　chhhhhhhhhhcchhhhhhheehhhchhhhhhhhhhhcccccchhhhhhhhhhhhh

　　MEGVPKSLNYSGVKELILAVDGVLSVHSLHIWSLTMNQVILSA

　　HVATAASRDSQVVRREIAKALSKSFTMHSLTIQMESPVDQDP

　　DCLFCEDPCD

　　hccceceeeeeecccccccccccccccccc(总长度369 bp)

　　图6 SLC30A8氨基酸序列的二级结构分析

　　3 讨论

　　从以上的研究和分析可以看出，糖尿病相关基因SLC30A8编码的蛋白质是一种多次跨膜蛋白，并且蛋白经过了多种形式的修饰。磷酸化和去磷酸化是细胞内信号传导的重要方式，而此蛋白有11个位点发生了磷酸化，蛋白质通过磷酸化和去磷酸化而发生构象改变导致其活性或性质的改变，从而调节细胞中各个生命活动过程，所以推测SLC30A8基因编码的蛋白质是一个有功能的比较活跃的蛋白质。另外蛋白质还发生了糖基化和酰基化，推测蛋白质具有传导信号的功能。研究表明SLC30A8编码的是一种在胰岛细胞大量表达的锌离子转运蛋白，其主要功能是将胞浆内的锌离子转运到胰岛素分泌囊泡中，参与胰岛素结晶六聚体的形成〔8〕。因此推测SLC30A8异常，可能会影响胰岛细胞胰岛素的正常分泌。本文利用生物信息学工具盒数据库资源对SLC30A8基因的染色体定位、基因结构及所编码的蛋白质性质、结构等进行了分析，为进一步研究SLC30A8基因在糖尿病发生中的作用提供参考依据。目前关于SLC30A8基因的研究还很少，其编码的蛋白质是如何调控锌离子转运的以及如何参与胰岛素分泌的都将有待于进一步研究。

　　1 Kahn SE。The importance of betacell failure in the development and progression of type 2 diabetes〔J〕。J Clin Endocrinol Metab， 2001；86(19)：404758.

　　2 Bergman RN，Ader M，Huecking K，et al。Accurate assessment of βcell function。The hyperbolic correction〔J〕。Diabetes，2002；51(suppl 1)：21220.

　　3 Sladek R，Rocheleau G，Rung J，et al。A genomewide association study identifies novel risk loci for type 2 diabetes〔J〕。Nature，2007；445(7130)：8815.

　　4 Scott LJ，Mohlke KL，Bonnycastle LL，et al。A genomewide association study of type 2 diabetes in Finns detects multiple susceptibility variants〔J〕。Science，2007；316(5829)：13415.

　　5 Wu Y，Li HX，Ruth J，et al。Common Variants in CDKAL1，CDKN2A/B，IGF2BP2，SLC30A8，and HHEX/IDE Genes are associated with type 2 diabetes and impaired fasting glucose in a chinese han population〔J〕。 Diabetes，2008；57(10)：283442.

　　6 薛庆中。DNA和蛋白质序列数据分析工具〔M〕。北京：科学出版社，2009：7298.

生物信息学分析篇3

　　关键词：生物信息学；教材；师范院校

　　20世纪80年代末以来，生物信息学以惊人的发展速度，获得了很多突破性成就，正日益成为生命科学在21世纪发展的核心内容。对于未来生物科学中坚力量的现代生物科学工作者而言，掌握生物信息学的相关知识尤为重要。

　　作为一门新兴的课程，生物信息学课程在全国很多高等院校都已经开设，并进行了一些卓有成效的探索和改革。我们结合自身的教学实践和相关学校的教学现状，对师范院校生物信息学课程教学内容、师资力量、教学模式和方法、跨学科合作、教学实践实施情况等方面的现状进行了积极分析和思考。目前，师范院校生物信息学教学的现状如下。

　　一、教学内容陈旧、教学资源缺乏

　　生物信息学是一门新兴的学科，在高等院校开设时间较晚，我国对生物信息学专业精品课程的建设方面投入不够，成熟的生物信息学教学大纲、教案、多媒体课件、教学视频和习题等教学资源稀少。目前，市场上也缺乏相关的生物信息学教学多媒体课件和音像制品辅导材料等相关产品，造成生物信息学教学资源匮乏的现状。

　　目前师范院校所用教材大多数是徐程主编的《生物信息与数据处理》，蒋彦等编著的《基础生物信息学及应用》等几种不同版本的教材。这些教材在知识性、科学性和系统性方面还行，但是在教学内容的新颖性、时效性和实践性以及生物相关背景的介绍和对师范院校的适用性等方面有所欠缺。生物信息学的知识日新月异，新的数据库、新的软件、新的算法层出不穷，而生物信息学的课堂往往不能及时地将最新进展呈现给学生，导致课堂内容陈旧，不利于学生的发展和对生物信息知识的合理掌握，从而影响了生物信息学教学的质量。

　　二、师资力量缺乏

　　生物信息学是一门新兴的交叉学科，需要熟练掌握计算机与生物学知识的老师来授课。然而，实际上，由于缺少生物信息学的专业教师，教授该学科的教师多为生物学其他课程兼任，这些老师往往缺乏专门的生物信息学训练，在知识的传授和应用方面存在欠缺。与生物信息学教学要求存在着较大的差距，不能很好地满足教学大纲的要求。另外，师范院校通常将生物信息学作为选修课来开设，该课程在专业建设和人才培养方案中的地位偏低，造成相关部门对师资培养不够重视。

　　三、教学模式和方法落后

　　由于生物信息学课程涉及大量的数据库和软件知识，教师普遍采用多媒体教学。而多媒体课件的容量通常很大，学生忙于笔记，难以把握重难点。同时，幻灯片展示的知识点犹如放电影一般一闪而过，学生没有足够的时间思考和消化，跟不上教师的进度。教师进行多媒体教学时，往往是一堂课上从头讲到尾，语调缺乏抑扬顿挫，没有起伏，学生很容易昏昏欲睡。因此，教师虽然使用的是先进的教学工具，采用模式的却是传统的灌输式教学，只管埋头照本宣科，不管学生接收领悟多少。学生为了达到期末考试标准，只顾死记硬背，这样的教育让学生失去创新精神和主动思考的能力，失去对生物信息课程的兴趣。

　　四、缺乏与相关学科的合作交流

　　生物信息学实际上是生物学与计算机科学的交叉学科。然而一般高校往往只在生命科学学院开设生物信息学，由生物学老师来担任授课老师。由于对计算机科学知识的缺乏，导致生物专业教师对生物信息学课程很难深入开展；另一方面，计算机科学专业由于没有开设生物信息学课程，使学生不能了解到生物信息学的重要性，以及如何使计算机科学更快更好地发挥其在生物信息学中的作用。总的来说，生物信息学课程的建设欠缺相关学科的协作，不能有效地整合资源，不利于培养复合型人才。

　　五、缺乏实践教学内容

　　现有的生物信息学课程也有一些实践内容，但实践课时数少，内容相对简单，缺乏系统完善的实践过程。教师为学生讲授具体知识时，通常只通过多媒体课件演示操作，并没有为学生设置具体的动手操作步骤。使得学生对信息反馈迟钝，印象不深刻，不容易掌握方法。生物信息学实践教学并不需要价格昂贵的实验设备，只需要一网的电脑和一些相关的分析软件便可以进行实验。然而，目前的状况是，生物信息学课程中真正开展实践性教学的内容少之又少。

　　生物信息学的学习是一个长期积累的过程，教学水平的提高也需要在大量的教学实践中不断总结和完善。我们通过分析发现，在师范院校生物信息学教学中仍存在很多问题，其原因是多方面的，需要教学工作者进一步深入探讨并提出切实可行的策略。

　　参考文献：

　　[1]汤丽华。浅谈大学本科生物信息学课程建设与教学[J]。科技

　　信息，2010(1)。

　　[2]贾小平，孔祥生。生物信息学实践教学初探[J]。陕西教育，

　　2010(3)。

　　[3]军。农学专业生物信息学课程教学改革探析[J]。现代农

　　业科技，2010(5)。

　　[4]郝新保。充分利用网络资源开展生物信息学教育[J]。中国医

生物信息学分析篇4

　　关键词：黑麦草；EST-SSR；信息分析；引物设计；功能分析

　　中图分类号：S543+。601文献标识号：A文章编号：1001-4942（2016）10-0001-06

　　黑麦草属禾本科（Poaceae）黑麦草属（Lolium）植物。其中最具有商业价值的两个种为多年生黑麦草（Lolium perenne L。）和多花黑麦草（Lolium multiflroum L。），作为草坪草和优质牧草在我国均有大面积栽培和利用[1，2]。

　　目前，黑麦草中常用的分子标记技术主要有RAPD[3]、CAPS[4]、AFLP[4，5]、SSR[6]、EST-SSR[7]等。SSR（simple sequence repeat）标记在遗传图谱的构建[8]、遗传多样性和亲缘关系分析[9]、品种指纹图谱及纯度鉴定[10]、功能基因标记[11]等方面具有公认的优越性和广阔的应用前景。但传统的基因组SSR标记开发投入多、耗时长。近年来，随着GenBank中大量EST（expressed sequence tags）序列的公布，许多植物基于EST的SSR（EST-SSR）标记开发成为可能。与基因组SSR相比，EST-SSR具有开发成本低、物种间通用性高、可直接反映相关基因的多样性等突出优点。目前许多作物如小麦、大麦、高羊茅、蒺藜苜蓿等的EST-SSR已被开发并用于遗传作图、遗传多样性、基因发掘、比较作图等研究[12-15]。

　　本研究利用NCBI上的黑麦草EST序列查找SSR，对其进行信息分析，设计EST-SSR引物，开发黑麦草EST-SSR分子标记，并对相应EST进行功能分析。

　　1材料与方法

　　1.1EST序列来源

　　从http：//ncbi。nlm。nih。gov/dbEST/下载黑麦草EST序列。

　　1.2EST-SSR的查找

　　登陆网站http：///db/markers/ssrtool，利用SSRIT（simple sequence repeat identification tool）软件在线查找二、三、四、五、六核苷酸5种类型的SSR。识别标准为：重复基序最小长度≥18 bp，即二、三、四、五、六核苷酸重复次数分别大于或等于10、7、5、4、3.

　　1.3EST-SSR引物设计

　　利用Primer Premier 5.0软件，根据SSR的侧翼区域设计引物。引物设计的主要参数：EST序列长度大于100 bp；SSR序列的开始和结束位置分别距5′和3′端不少于20 bp；引物长度18～22 bp；退火温度Tm值 50～65℃，而且上游和下游引物的Tm值相差不大于5℃；PCR扩增产物长度100～300 bp；得分90分以上，尽量避免引物二级结构的出现。

　　1.4EST功能分析

　　利用NCBI网站对筛选出的黑麦草EST序列进行Blast比对，包括BlastN和BlastX两种比对，得到与其他植物已知基因或蛋白相似的功能，获得该EST在草坪草中的预测功能。利用BlastN程序在核苷酸水平上进行同源性分析，认为序列比分值大于200，e-value ≤1×10-20的序列具有同源核苷酸片段，而比对的片段长度小于50 bp结果不予采纳；对符合上述要求的EST序列利用BlastX程序在翻译水平上对其进行分析，序列比分值大于80的结果认为有相似性显著的同源蛋白质。

　　2结果与分析

　　2.1源于黑麦草EST的SSR查找

　　从NCBI上共下载到黑麦草的25 752条EST序列（其中多年生黑麦草19 784条，多花黑麦草5 968条）。经SSR查找，共发现346条SSR序列，占整个EST数据库的1.344%；这些EST序列全长17 720 kb，平均每1 000 kb 出现19.53个SSR，即每51.21 kb出现1个SSR。含有二、三、四和五核苷酸重复基序分别占SSR总数的31.79%、39.60%、11.27%和17.34%，无六核苷酸重复基序，三核苷酸基序出现频率最高，次之为二核苷酸基序（表1）。

　　2.2黑麦草EST-SSR的特征分析

　　346个SSR中，二核苷酸基序以CT/GA出现频率最高，占SSR总数的14.45%，其次是GA/CT（10.98%）和AT/TA（1.73%）。三核苷酸基序以GGC/CCG出现的频率最高，为8.38%，其次是CGC/GCG（7.51%）、GCC/CGG（4.05%）和ATG/TAC（2.02%），其他类型出现频率较低。四核苷酸基序以GTTG/CAAC出现频率最高，为0.87%。五核苷酸以TGTCG/ACAGC（2.31%）和CTCAT/GAGTA（2.02%）出现频率较高，其余出现频率均较低（表2）。

　　2.3黑麦草EST-SSR引物的开发

　　利用Primer Premier 5.0软件，对346个EST-SSR序列进行引物设计，共设计引物193对（55.78%），分值在90分以上的有113对（32.66%），见表3.

　　2.4功能分析

　　利用NCBI的BlastN和BlastX程序，对113条EST-SSR引物相应的EST序列进行比对分析。有78条EST序列与具有生物功能的核酸有同源性（未列出），有72条EST序列与具有生物功能的蛋白质有同源性（表4）。这72条蛋白序列分属于51种蛋白，大部分的同源产物来源于二穗短柄草（31.94%）或乌拉尔图小麦（15.28%）。

　　3讨论

　　目前，水稻[16]、小麦[17-19]、玉米[20]等主要粮食作物的EST-SSR标记已得到大量开发和应用。草类植物EST-SSR标记的开发和应用还较少。随着草坪草、牧草等草类植物EST和cDNA大规模测序的开展，相应EST数目也在急剧增加，其EST-SSR引物的开发与利用展现了广阔的前景[14，21-24]。截至2015年11月14日，在GenBank数据库（http：//ncbi。 nlm。nih。 gov/dbEST）中找到的黑麦草的EST序列已达到25 752条。我们利用这25 752条EST序列，对346个EST-SSR序列进行引物设计，设计了113个分值90以上的引物对，为黑麦草增加了新的分子标记。

　　前人对EST-SSR的出现频率及重复基元出现频率进行了大量研究。关于EST中SSR出现频率，Chen等[17]对小麦EST-SSR进行开发时，每57.44 kb出现一个SSR；而李杰勤等[21]在高粱中研究结果为平均3.93 kb。这可能是由所研究的EST数据库不同及不同的EST-SSR搜索标准和统计标准所致。本研究在25 752条黑麦草EST序列中，共找到346条SSR序列，占整个EST数据库的1.344%，平均分布距离为51.21 kb。本研究结果和Chen等[17]研究结论相近。关于EST中不同核苷酸数目的重复基元出现频率，本研究中三核苷酸基序出现频率最高（39.60%），次之为二核苷酸基序（31.79%）。三核苷酸基序以GGC/CCG出现的频率最高，为8.38%，其次是CGC/GCG（7.51%），二核苷酸基序以CT/GA出现频率最高，占SSR总数的14.45%，其次是GA/CT（10.98%）。前人多数研究结果也为三核苷酸重复基元出现频率最高[25，26]。在水稻、玉米、大豆、高粱中二核苷酸重复基序出现频率最多的都是GA/CT[19]，在水稻、玉米、大麦中，三核苷酸的CCG/GGC和AGG/TCC出现频率高[19，26，27]。本研究结果与在大多数植物基因组中三核苷酸重复出现频率较高的结果是一致的，二、三核苷酸不同基序出现频率也与多数结果一致。

　　利用生物信息学对EST序列进行功能分析，可推测该EST序列的功能，使随机测序而获得的EST序列与特定的生物功能相联系，有助于EST-SSR的进一步利用。而那些通过比对不能发现同源核苷酸或蛋白质的EST序列，可能是新的功能基因，EST-SSR引物就可作为这些新基因的分子标记，为基因克隆与功能验证奠定标记基础。高瑞娟等[28]在比对结球白菜EST时，94.8%（1102/1162）的EST可在蛋白质或核苷酸水平上找到同源类似物，大约77%的功能已知蛋白质来自拟南芥。本文利用NCBI的BlastN和BlastX程序对113条EST-SSR引物对应的EST序列进行了比对分析。结果表明，72条EST序列有生物学意义上的同源序列（63.72%），与高瑞娟等研究结果类似。我们比对的大部分的同源产物来源于二穗短柄草（31.94%）或乌拉尔图小麦（15.28%），得益于这两个物种特别是草类模式植物二穗短柄草近年来基因组研究的飞速发展。

　　4结论

　　在GenBank/dbEST中检索到黑麦草的EST序列25 752条，其中346个EST序列含有SSR（1.344%），共设计了分值90以上的EST-SSR引物113对。EST-SSR信息分析表明，三核苷酸基序最多，并以GGC/CCG出现的频率最高；次之为二核苷酸基序，并以CT/GA出现频率最高。对113条EST-SSR引物相应的EST序列进行Blast比对分析表明，有72条EST序列与具有生物功能的蛋白质有同源性，且分为51种蛋白质，大部分的同源产物来源于二穗短柄草（31.94%）或乌拉尔图小麦（15.28%）。

　　[1]

　　李杰勤，王丽华，詹秋文，等。 20个黑麦草品系的SRAP遗传多样性分析[J]。草业学报， 2013， 22（2）： 158-164.

　　[2]刘春英，孙学映，朱体超，等。不同黑麦草品种生产性能比较与优势品种筛选[J]。草业学报， 2014， 23（4）： 39-48.

　　[3]董晓宁，张晓佩，李文杨。 18个黑麦草品种（系）的RAPD分析[J]。福建农业学报， 2009， 24（3）： 266-269.

　　[4]Miura Y， Ding C， Ozaki R， et al。 Development of EST-derived CAPS and AFLP markers linked to a gene for resistance to ryegrass blast （Pyricularia sp。） in Italian ryegrass （Lolium multiflorum Lam。） [J]。 Theoretical and Applied Genetics， 2005， 115（5）： 811-818.

　　[5]Bert P F， Charmet G， Sourdille P， et al。 A high-density molecular map for ryegrass （Lolium perenne） using AFLP markers [J]。 Theoretical and Applied Genetics， 1999， 99（3）： 445-452.

　　[6]Studer F， Klliker R， Muylle H， et al。 EST-derived SSR markers used as anchor loci for the construction of a consensus linkage map in ryegrass （Lolium spp。） [J]。 BMC Plant Biology， 2010， 10：177.

　　[7]Hirata M， Cai H， Inoue M， et al。 Development of simple sequence repeat （SSR） markers and construction of an SSR-based linkage map in Italian ryegrass （Lolium multiflorum Lam。） [J]。 Theoretical and Applied Genetics， 2006， 113（2）：270-279.

　　[8]卢杰，吕媛媛，李杰勤，等。高丹草SSR引物设计及分子遗传框架图谱构建[J]。中国草地学报， 2009， 31（2）：28-33.

　　[9]Ipek A， Barut E， Gulen H， et al。 SSR analysis demonstrates that olive production in the southern Marmara region in Turkey uses a single genotype [J]。 Genetics and Molecular Research， 2009， 8（4）： 1264-1272.

　　[10]Aitken K S， Jackson P A， McIntyre C L。 A combination of AFLP and SSR markers provides extensive map coverage and identification of homo（eo）logous linkage groups in a sugarcane cultivar [J]。 Theoretical and Applied Genetics， 2005， 110（5）： 789-801.

　　[11]Li Y， Niu Y C， Chen X M。 Mapping a stripe rust resistance gene YrC591 in wheat variety C591 with SSR and AFLP markers [J]。 Theoretical and Applied Genetics， 2009， 118（2）： 339-346.

　　[12]Holton T A， Christopher J T， McClure L， et al。 Identification and mapping of polymorphic SSR markers from expressed gene sequences of barley and wheat[J]。 Molecular Breeding， 2002， 9（2）： 63-71.

　　[13]Saha M C， Rouf M A， Eujayl I， et al。 Tall fescue EST-SSR markers with transferability across several grass species [J]。 Theoretical and Applied Genetics， 2004， 109（4）： 783-791.

　　[14]Barrett B， Griffiths A， Schreiber M， et al。 A microsatellite map of white clover [J]。 Theoretical and Applied Genetics， 2004， 109 （3）： 596-608.

　　[15]Gupta S， Prasad M。 Development and characterization of genic SSR markers in Medicago truncatula and their transferability in leguminous and non-leguminous species [J]。 Genome， 2009， 52（9）： 761-771.

　　[16]Yu J K， Rota M L， Kantety R V， et al。 EST derived SSR markers for comparative mapping in wheat and rice[J]。 Molecular Genetics and Genomics， 2004， 271（6）： 742-751.

　　[17]Chen H M， Li L Z， Wei X Y， et al。 Development， chromosome location and genetic mapping of EST-SSR markers in wheat [J]。 Chin。 Sci。 Bull。， 2005， 50： 2328-2336.

　　[18]Song W， Xie H， Liu Q， et al。 Molecular identification of Pm12-carrying introgression lines in wheat using genomic and EST-SSR markers[J]。 Euphytica， 2007， 158 （1）： 95-102.

　　[19]Li L Z， Wang J J， Guo Y， et al。 Development of SSR markers from ESTs of gramineous species and their chromosome location on wheat [J]。 Proceedings of the Academy of Natural Science， 2008， 18： 1485-1490.

　　[20]Galvao K S， Ramos H C， Santos P H， et al。 Functional molecular markers （EST-SSR） in the full-sib reciprocal recurrent selection program of maize （Zea mays L。） [J]。 Genetics and Molecular Research， 2015， 14（3）： 7344-7355.

　　[21]李杰勤，王丽华，詹秋文，等。高粱EST-SSR标记的建立及其在苏丹草中的应用初探[J]。草业科学， 2010， 27（3）： 112-117.

　　[22]陈永霞，张新全，谢文刚，等。利用EST-SSR标记分析西南扁穗牛鞭草种质的遗传多样性[J]。草业学报， 2011， 20（6）： 245-253.

　　[23]温莹，逯晓萍，任锐，等。高丹草EST-SSR标记的开发及其遗传多样性[J]。遗传， 2013， 35（2）： 225-232.

　　[24]Zeid M， Yu J K， Goldowitz I， et al。 Cross-amplification of EST-derived markers among 16 grass species [J]。 Field Crops Research， 2010， 118（1）： 28-35.

　　[25]Gao L F， Tang J F， Li H W。 Analysis of microsatellites in major crops assessed by computational and experimental approaches [J]。 Molecular Breeding， 2003， 12： 245-261.

　　[26]Thiel T， Michalek W， Varshney R K， et al。 Exploiting EST databases for the development and characterization of gene-derived SSR-markers in barley （Hordeum vulgare L。） [J]。 Theoretical and Applied Genetics， 2003， 106： 411-422.

范文大全

生物信息学分析，生物信息学分析

生物信息学分析篇1

生物信息学分析篇2

生物信息学分析篇3

生物信息学分析篇4

热门推荐

猜您感兴趣

相关文章