admin 管理员组

文章数量: 887021


2024年2月28日发(作者:gamma分布积分)

PCR序列拼接软件Contig Express使用简介

1 - Contig Express的基本情况

大家做分子生物学实验最多的步骤可能就是PCR了。PCR之后一般要进行测序以保证扩增序列的正确性。由于测序能力的限制,目前最好的公司也只能保证一个反应800bp测准。如果大家的克隆片断大于1k,那么势必要同时测两个反应,然后将两个反应得到的序列利用其相互重叠的部分进行拼接,这样才能得到完整的PCR产物序列。怎样拼接呢?有的公司还比较厚道,会帮助您拼好;可使大多数公司碰到这种情况只会将几个片断丢给您自己让您DIY。

Contig Express是著名的软件Vector NTI的组件之一。经过一些简单的处理该组件可以被剥离出来独立运行,经我们试用效果良好。Contig Express将每个PCR测序片断视为一个Contig,当您输入多个Contig后,它会自动寻找其中的公共序列,然后将他们拼接好后的结果已图形方式呈现给您。完全免除您手工逐个片断Blast,然后肉眼找共同序列的苦恼。

Contig Express 9.1可以从论坛中下载。

2 - 向Contig Express中加入需要拼接的序列

目前PCR测序的结果多以ABI和Fasta两种格式提供。一般来说ABI结果是原始结果最为可信,因此我们最好向Contig Express中直接倒入ABI格式的原始数据。

倒入的方法是"Project---Add Fragments---From "。

在接下来弹出的"Import Sequence From"对话框中选择测序公司发给您的ABI文件。需要注意的是目前公司发给您的原始ABI文件多是"AB1"文件名。Contig Express无法直接识别,因此有必要在文件类型中选择“All Files(*.*)"。由于要拼接多个序列这时您可以配合Ctrl键进行多选。

3 - 用Contig Express进行序列拼接

现在我们已经选好了要进行拼接的序列了,接下来的步骤就交给Contig Express让它为我们自动拼接了。用鼠标配合Ctrl键选择要进行拼接的序列。然后点击"Assemble---Assemble

Selected Fragments"。

拼接的过程一闪而过。在接下来的对话框中显示出这两个PCR片断拼接得到的“Contig1”。用鼠标双击“Contig 1”。

在下面这幅图中形象地显示出这次拼接的结果。上下两段序列分别代表从两个相反方向进行测序得到的结果。两者之间大约有1/2是重复的片断。最下方花黑框的位置就是初步的拼接结果。

4 - 用Contig Express进行手工校正

大家知道一般PCR测序结果总会有一些位置不明确或者被标记上“N”。这些“N”常出现的位置或者说测序最难测准的位置一般在测序引物的旁边也就是靠近边缘的位置。在序列拼接的过程中也会出现这样的情况。在重复片断内部,相同位置上两个反应的测序结果不同。这时我们根据经验,一般有疑问碱基若是出现在一个测序片断的中间部,那么它的准确性肯定强于相同碱基出现在测序片断两端的情况。

那么现在我们怎样方便的利用Contig Express寻找这些“N”呢?很简单。我们首先选定一个片断(比如下面的片断),然后点击下图中的"---〉N"图标。这时Contig Express就会为我们立刻找到有疑问的地方。比如下图中,相同位置同一碱基在两个测序反应中产生了不同的结果。一个是T,另一个是C。大家觉得我们该取那个值呢?当然是“C”,因为在这个位置上,下方的测序片断恰好位于中部,结果可信性高于上方位于头端的测序片断。我们可以手工将最下方Contig最终结果的“Y”更改为“C”。由此类推,不断地点击"---〉N"图标就能找到更多的“N”位点。最终我们可以将我们的Contig结果修改正确。

最后的步骤是得到最终Contig结果。我们用鼠标点击最下方的Contig 1行中的任意一个碱

基。然后点击菜单栏上的"Edit---Select All",下面的Contig 1行就会被全部选中。然后再点击菜单栏上的"Edit---Copy Sequence From 1bp to 1750bp"就可以把最终的Contig拼接结果拷贝到粘贴板上。接下来的步骤就不用我说了吧......

1、核酸序列检索

可通过NCBI使用Entrez系统进行检索,也可用EBI的SRS服务器进行检索。在同时检索多条序列时,可通过罗逻辑关系式按照GenBank接受号进行批量检索。如用“AF113671 [ac] OR

AF113672 [ac]”可同时检索这两条序列。其中“[ac]”是序列接受号的描述字段。

2、核酸序列的基本分析

(1)分子质量、碱基组成、碱基分布

分子质量、碱基组成、碱基分布可通过一些常用软件等直接获得。如:

BioEdit(/BioEdit/),

DNAMAN()。

(2)序列变换

进行序列分析时,经常需要对DNA序列进行各种变换,例如反向序列、互补序列、互补反向序列、显示DNA双链、转换为RNA序列等。这些用DNAMAN软件可很容易实现,这些功能集中在Sequence→Display,从中可选择不同的序列变换方式对当前通道的序列进行转换。

(3)限制性酶切分析

该方面最好的资源是限制酶数据库(Restriction Enzyme Database,REBASE)。REBASE数据库(,/rebase)中含有限制酶的所有信息,包括甲基化酶、相应的微生物来源、识别序列位点、裂解位点、甲基化特异性、酶的商业来源及公开发表的和未发表的参考文献。其它资源还有:

WebGene:/~tjyin/WebGene/,

/personal/

WebCutter2:www//firstmarkert/firstmarket/cutter/

同时,很多软件也能够识别REBASE限制酶数据库。强烈推荐使用集成化的软件如BioEdit和DNAMAN等。所得出的结果给出指定DNA序列的酶切位点信息,为克隆鉴定和亚克隆提供了重要信息。

在实际进行分子生物学实验中,有时需要对多条相关序列(如发生突变的一批序列)同时进行酶切分析,以便为后续的克隆鉴定提供参考。此时DNAMAN软件是一个良好的选择。在对所有序列进行多重对齐后,其输出项“Output”中即有“Restriction Analysis”选项,执行后即可完成对所有参与对齐序列的酶切分析,能够得到所有序列的差异酶切图谱和一致酶切图谱。

(4)克隆测序分析

得到测序结果后,需要对所测序列进行后续分析,其中主要包括对测序峰图的查看和载体序列的去除等过程。

a. 测序峰图的查看

最简单的程序是澳大利亚的Conor McCarthy(./~conor/)开发的程序,但该程序不支持Windows 95以上的长文件名。其实,集成化的软件如BioEdit和DNAMAN也具有此功能。

b. 载体序列的去除

许多数据库中收集了常用的测序载体序列,如:

vector-ig: ftp:///repository/vector-ig

ftp:///repository/vector

UniVec数据库: /VecScreen/

/blast/db/vector.Z

VectorDB: /vectordb/

如果用户面对的是大批量序列的分析任务,则需要将这些载体数据库下载后进行分析。使用Blast程序(/VecScreen/)对此类数据库进行相似性分析即可得知目的序列中是否含有载体序列。如果是,那么在对测序列数据进行进一步分析之前必须将载体序列去除。此过程虽然简单,在核酸序列数据库中仍有一些序列含有载体序列的污染。

美国基因编码公司(Gene Codes Corp/)所开发的SequencherTM软件在识别载体序列方面具有很强的功能。SequencherTM软件被多个公司用于测序数据的分析和管理。该分司同时提供该软件的演示版,可通过其网址(/)获得。运行SequencherTM软件后,选择File→Import→Sequences,选择待进行载体序列分析的测序文件。该测序文件可为文本格式的序列文件,也可为测序峰图文件,甚至可将一个目录下的所有的文件一次性输入。编辑载体序列文件,在Name中填写载体名称,在PolyLinker处填写克隆插入位点的两侧序列,中间插入位点用星号(*)标识。选中待进行载体序列切除的序列图标,选择Sequence→Trim Vector,将得到切除结果。点最上方的Show Bases按钮,将显示具体序列。SequencherTM软件可识别的载体序列文件也可来自VecBase数据库。

(5)核酸序列的电子延伸

核酸序列的电子延伸的基本过程是:①将待分析的核酸序列(称为种子序列)采用Blast软件搜索GenBank的EST(expressed sequence tag,表达序列标签)数据库,选择与种子序列具有较高同源性的EST序列(一般要求在重叠40个碱基范围内有95%以上的同源性),称为匹配序列。②将匹配序列和种子序列装配产生新生序列,此过程称为片段重叠群分析(contig analysis)。③

然后再以此新生序列作为种子序列,重复上述过程,直到没有新的匹配序列入选,从而生成最后的新生序列,作子种子序列的延伸产物。

在GCG软件包中,以下分析工具用于完成序列的电子延伸:

gelstart程序为测序工程创建一个新的数据库;

gelenter程序将克隆序列输入数据库;

gelmerge程序自动分析克隆和片段末端重复情况;

gelassemble调整片段重叠群的对齐结果;

gelview显示单个片段重叠群中的重叠情况;

geldisassemble将片段重叠群中的克隆分解为单个克隆序列。

GenBank和UniGene数据库、Tigem的EST Machine、EMBL的EST Cluster Project、美国Pangea的EST Assembly Project以及我国南方基因组中心的EST Assembly Project基本上采用此方式进行。由于该过程的计算需要大量计算机资源,所以目前沿无通过Web直接进行片段重叠群分析的资源。在实际分析时,用户一般将自己的序列向上述数据库提交,可直接从其中获得已经完成拼接得较长的cDNA序列。序列拼接的有关生物学资源如下:

UniGene:/UniGene/,GenBank中EST序列按照基因簇分类结果。

STACK:/,南非国家生物信息中心SANBI维护的一个序列标记联配和代表序列知识库。及与之密切有关的一个数据库SANIGENE。

Staden可供下载进行片段重叠群分析的软件包网址:/pubseq/;/Registered/Option/。

以UniGene数据库进行电子延伸为例,首先用进行序列同源性检索。通常可从EST数据库中检索到一批与待分析序列高度同源的EST序列。选择同源性比分最高的一条EST序列,从UniGene数据库中进行检索,得到相应的UniGene编号。获得待分析序列的UniGene编号后,就可将参与形成 UniGene Cluster的所有序列下载到本地,利用SequencherTM软件或其他序列装配软件进行组装,形成较长的新生序列。真正的cDNA序列还需要通过实验验证。通过对延伸后的序列设计全长引物,经过反转录PCR即可验证是否是对原序列的有效延伸。

(6)基因的电子表达谱分析

核酸序列对应基因的组织表达谱分析原理是,将待分析序列与EST数据库进行序列对库检索,随后用与待分析核酸序列具有高同源性的EST序列所对应的组织来源进行推断,从而得到该基因的组织表达谱。可用UniGene Cluster序列的组织/细胞来源来间接地反映待分析序列在何种组织中表达,体现在字段“cDNA sources”中。也可用Tigem服务器的电子原位杂交软件及其数据库(/INSITU/)也同机关报可获得组织/细胞表达谱。

(7)核酸序列的电子基因定位分析

对核酸序列进行电子基因定位(即基因的染色体定位)有三种策略,其一利用STS(sequence tagged

site)数据库,联网到NCBI电子PCR资源(/genome/sts/),输入待分析序列进行;其二是利用UniGene数据库进行,但首先要获得待分析序列所对应的UniGene编号,大部分UniGene序列已经具有较为明确的利用放射性杂交(radiation hybrid,RH)技术给出的定位信息,根据UniGene/RH技术进行定位。其三是直接利用基因组序列进行电子基因定位。先将待分析序列进行对基因组数据库的同源性检索,得到确定的基因组序列后点击“Genome view”按钮观察其基因组结构,点击用红色标记所指示的染色体列表中选择所对应的染色体区域,浏览器中将显示详细的基因定位结果,相关的基因谱数据库如 RHdb、mouse RH、GeneMAP’99、HuGeMap。

(8)cDNA对应的基因组序列分析

可通过NCBI查询全部基因组数据库进行基因组序列分析,也可通过Sanger中心查询基因组数据库进行分析(/HGP/blast_)。

(9)基于核酸序列对齐分析的功能预测

主要内容如对库比较、多序列以及序列之间的两两比较、同源性比较及结果的显著性评价、分子进化树的绘制等。可用BioEdit、Omiga、DNAMAN等集成了的Clustal W/X软件分析,其分析结果可用来给制分子进化树。

(10)可读框架分析

AUG可能是真核生物惟一的翻译起始点。Kozak调查了200多种真核生物mRNA中5′末端第一个AUG前后序列发现,除此17个例外,其余都是 A/GNNAUGG。具有生物学功能的起始密码子AUG总是出现在一定的核苷酸阅读框架内。首先,AUG上游(即5′方向)的第三个核苷酸常常是嘌呤,且多数是A(即-3A);其次,紧跟在AUG后面的核苷酸,常常也是嘌呤,且多数情况下是G(即+4G)。实验表明,AUG附近的核苷酸序中以 ANNAUGN和GNNAUGPu的利用率最高,而没有起始功能的AUG附近核苷酸则无此保守性,即所谓的“Kozak序列”。

对于真核生物而言,一条全长cDNA序列将只含有单一的开放阅读框(open reading frame,ORF)。非全长cDNA的序列如ESTs,通过将核苷酸序列中的所有相位进行搜索可很快获得结果。相关资源如下。

①ORF查找器:将以FASTA格式提交的序列翻译,按照所有可能的六个相位翻译为蛋白质序列。如果所查询的序列拟使用非标准遗传密码,则可从相应的对话框中选择正确的密码子进行ORF分析。/gorf/

②从第一个碱基直接将DNA翻译为蛋白质:/www/

在进行ORF分析过程中,往往由于测序错误而导致编码区分析失败,例如相位错位或错误终止密码子出现均可导致氨基酸序列截短,以及在cDNA序列中出现几个不一致的5′末端。此种错误往往通过BlastX程序,对蛋白质序列数据库搜索后加以校正。相位错位的相似性分析结果表

现为在不同相位上与同一条蛋白质序列相似,而异常的终止密码子则导致在同一相位上与同一条蛋白质序分段对齐。

采用蛋白质序列进行后续分析十分重要,这主要是由由于DNA编码的冗余性造成的(第三个碱基的简并性)——其直接结果是即使两条DNA序列之间具有67% 的相似性,但是在蛋白质水平可获得100%的一致性。而且用蛋白质序列进行后续分析显然更能发现生物学意义。蛋白质水平之间的25%同源性就可提示其间功能的相似性,但是在DNA水平上则需要40%以上的一致性。

(11)基因组序列中编码区/内含子结构分析

真核生物基因断裂结构的一个重要特点是外显子-内含子连接区(exon-intorn junction)的高度保守性和特异碱基序列。外显子-内含子连接区又称边界序列,有两个重要特征:①内含子的两端序列之间没有广泛的同源性,因此内含子两端序列不能互补,这说明在剪接加工之前,内含子上游序列和下游序列不可能通过碱基配对形成发卡式二级结构;②外显子-内含子连接区序列虽短,但却是高度保序的序列。这一序列与剪接机制有关,它是RNA剪接的信号序列。序列分析表明,几乎每个内含子5′端起始的两个碱基都是GT,3′端最后两个碱基总是 AG。由于这两个碱基的高度保守性和存在的广泛性,有人称之为GT-AG法则,即5′ GT……3′ AG。由于内含子两端的接头序列不同,因此可定向表明内含子的两个末端,根据剪接加工过程沿内含子自左几右进行的原则,一般将内含子的5′端接头序列称为左剪接位点,3′端接头序列称为右剪接位点,有时也将前者称为供体位点(donor site),后者称为受体位点(acceptor site)。外显子-内含子连接区几乎在所有真核生物基因中都是保守的,表明存在共同的剪接加工机制。

基因组序列中编码区/内含子结构分析最好的软件是GRAIL(gene recognition analysis internet

link)套装软件(/Grainbin/EmptyGrailForm)其中GRAIL1→人、小鼠、果蝇,GRAIL 1a→人、小鼠,GRAIL2→人、小鼠、拟南芥、果蝇。可直接向服务器发送e-mail(**************)得到最新的描述。

依靠与数据库中已知蛋白质序列和cDNA序列、EST序列进行对比,来识别内含子、外显子剪接位点是较为可靠的方法。外显子和内含子数据库有:

IDB:/intron/。内含子序列数据库。

ExInt:/。外显子和内含子数据库。

Intronerator:/~kent/intronerator/。C. elegans的内含子和选择性剪接基因的数据库。

也可用Gene Finder软件(/urllists/)进行基因组序列的内含子、外显子分析。

在获得了cDNA序列及其对应的基因组序列后,将二者进行对齐以直观地显示该基因的结构是十分重要的。Sim4程序(/)提供该服务,分析结果则可保存下来用Lalnview程序在电脑上直观地显示。注意,向Sim4提交的序列应不含任何数字。

(12)基因启动子及其他DNA调控位点分析

真核生物启动子在-25~-35之间含有TATA序列,在-70~-80区含有CCAAT序列,在-80~-110含有GCCACACCC或 GGGCGGG序列。习惯上,将TATA框上游的保守序列称为上游启动子元件(upstream promoter element,UPE)或称上游激活序列(upstream activating sequence,UAS)。TATA框存在与否至关重要,而CAAT和GC区主要控制转录起始频率,基本不参与起始位点的确定。但并非每个基因的启动子都含有这3种序列。

一些保守的功能区如启动子、增强子、转录因子结合位点、内含子和外显子剪接位点等可通过生物信息学分析。已有大量的数据库收集了启动子位点(promoter site)和转录因子结合位点(transcription factor-binding site)的信息。

EPD (eukaryotic promoter database): ftp:///pub/databases/epd;

ftp:///pub/db/epd

TRANSFAC: /TRANSFAC; ftp:///pub/databases/transfac

TransTerm: ftp:///pub/databases/transterm

TRRD: /mgs/dbases/trrd4/

COMPEL: ftp://(/pub/compel)

GeneExpress: /mgs/systems/geneexpress/

/mgs/papers/kol/ismb98/

Promoter Scan: /software/proscan/

/molbio/proscan/

Signal Scan: /molbio/signal

TFSearch: /SIT/

PatSearch: /cgi-bin/patSearch/

PromFD: ftp;//(/pub/

同时还有一些软件能直接搜索目的DNA序列中是否含有以上数据库中所包括的序列模式。如联网到/seq_tools/进行启动子分析。

对于EPD数据库(http:/seq_)进行检索的一个策略是将其下载后格式化为Blast软件可识别的数据库,然后用Blast软件可对其进行检索,判断是否含有Promoter信息。

(13)重复序列分析

Genetic information research institute(GIRI)的RepBase(/server/Repbase)是真核生物DNA中重复序列数据库。联网到RepeatMasker程序可进行重复序列片段分析。

RepeatMasker程序:/RM/

(14)引物设计

主要软件为Primer Premier。通过“File/New sequence/New DNA”输入核酸序列,随后点击“Primer”进入引物设计界面。用户可选择引物种类。点击“search parameter”可进入参数调整界面。引物与模板匹配显示区将实时地显示引物的各种性质及其与模板匹配的信息,用户可据此选择合适的引物。其他还有 Oligo、Vector NT、Omiga、Primer3等。

其中Primer3提供联网方式设计,并可对引物进行数据库检索,以尽可能排除非特异扩增的结果。其网址为:/cgi-bin/primer/primer3_

(15)向数据库中提交核酸序列

向EMBL数据库提交序列的网络表格参见:/subs/。序列被接受后将赋予一个序列接受号,用于在出版论文中引用。

GenBank数据库中提交可联网(/Genbank/)进行,也可用Sequin软件(可从NCBI下载)制作好序列提交文件,向NCBI发送e-mail(***************.)进行。

新基因的命名则要与国际基因命名委员会(/nomenclature/)联系后确定。


本文标签: 序列 进行 分析 数据库