当前位置：首页 > 序列文件格式：fasta 格式和 Flatfile 格式

序列文件格式：fasta 格式和 Flatfile 格式

62 次阅读
3 次下载
2025/12/12 7:06:56

1、序列文件格式：fasta 格式和 Flatfile 格式 fasta格式

数据库被用来存放原始数据，以及一系列附加的注释。不同的检索工具和程序利用了这些信息中的不同部分。纵观各种格式，我们可以发现其中应用了一些共同的规则，以使得多种情况下在不同格式之间生成和交换数据成为可能。最便于人阅读的格式对计算机程序来讲很可能并非是最有效率的（例如GenBank flatfile，这是一种人可以阅读的ASN.1版本）。这些记录还有二进代码版，更加紧凑，计算机处理也更快。但不幸的是，由于历史的原因，对一种固定格式的频繁使用使得引入另一种格式极为困难，尽管新的格式可能更加富含信息，更加准确，易于复制和计算，易于抽取信息，易于使用。GBFF的简单性，使我们都可以获得易用的工具，这也是EMBL和GBFF极大通用性的重要原因。

作为最简单的格式，一个DNA序列可以表示为一个带有一些标记的核苷酸字符串。这里是一个以FASTA（或Pearson格式）文件表示的核苷酸序列数据：

>L04459

*******************

或同样的，一个蛋白质记录：

>P31373

*******************

FASTA格式广泛应用于许多分子生物学软件包之中。作为最简单的情况（正如上面所显示的），大于号（>）表示一个新文件的开始。标记符??上面第一个例子开始部分的L04459??后面是大写或小写字母的DNA序列，通常60个字符一行（但这并非是标准规定）。如果需要的话，用户或数据库可以在这个简单格式的基础上增加复杂的结构化信息。例如，在不违反上面规定的前提下，可以在FASTA的说明行中加入更多的内容，使这个简单的格式包含更多的信息，就象下面这样： >|

*******************

现在这个FASTA文件中包含了gi号码（见下面）、GenBank检索号码、LOCUS名称、以及GenBank记录中的DEFINATION字段。这个记录是从ASN.1记录生成的，而ASN.1是NCBI用来存储和维护所有数据的格式。（在计算机中这些数据保存为一行，如果打印出来，将比本书的页面宽出许多。所以，这里做了折行处理）。

在分子生物学的历史上曾经使用过许多格式，其中有些格式现在还在使用，同时

也有许多工具用来在这些格式之间转换数据。NCBI的asn2ff程序可以将ASN.1文件转换为多种flatfile文件格式，它可以生成GenBank、EMBL、GenPept、Swiss-Prot以及FASTA格式的文件。这一程序包含在NCBI工具软件包之中。Don Gilbert的READSEQ是另一个广泛使用的工具，已包含在许多软件包中。在使用这些工具进行格式转换时，用户应当注意，有些GenBank或EMBL格式下的特性将被丢失。READSEQ只工作于序列自身，并不处理注释部分。那些只需要序列数据的程序最好使用FASTA格式的序列来进行查询。尽管FASTA格式的信息含量比其他格式少，但它提供了人和计算机都可理解的处理原始数据的简单方法。

GenBank Flatfile格式 GenBank flatfile（GBFF）是GenBank数据库的基本信息单位，也是最广泛地用以表示生物序列的格式之一。在本书写作的时候，它也是从GenBank到DDBJ和EMBL数据库，以及EMBL、DDBJ之间或向其他数据库交换数据时所采用的格式。DDBJ flatfile格式与GBFF格式是相同的。EMBL格式则每行都带有前缀，以表明本行的信息类型。注释部分（见下面）前缀为“FT”，在内容上与其他数据库相同。所有这些格式实际上都是由更结构化的ASN.1生成的。但是主要由于历史的原因，许多用户（专家或非专家）在工作中使用GBFF（或EMBL flatfile格式）

GBFF可以分成三个部分，头部包含关于整个记录的信息（描述符）。第二部分包含了注释这一记录的特性，第三部分是核苷酸序列自身。所有的核苷酸数据库记录（DDBJ/ EMBL/ GenBank）都在最后一行以 // 结尾。头部

头部是记录中与数据库关联最大的部分。各个的数据库并不一定在这一部分包含相同的信息，而可能存在着微小的差别。但各数据库已作出努力以在彼此之间保证信息兼容。

所有的GenBank flatfile开始于LOCUS行： *********************

这一行中的第一项是LOCUS名称。历史上曾用这个名称来表示本记录描述的基因座，提交者和数据库工作人员花费了无数的时间来设计这一名称。这一成分开始于一个英文字母，总长度不能超过10个字符。第二个字符以后可以是数字或字母，所有字符均要大写。LOCUS名称在以前是最为有用的，那时大多数DNA序列记录只表示一个基因座，这样在GenBank中寻找一个可以用少数几个字母和数字来代表生物体的独特的名字是很容易的事。经典的例子包括HUMHBB：人β-珠蛋白基因座，或SV40：猿猴病毒（拷贝之一，因为存在许多拷贝）。为了可用起见，LOCUS名称在数据库中必须是独一的。因为几乎所有有意义的命名符都被使用过了，所以今天LOCUS名称已不再是一个有用的成分。但仍有许多软件包依赖于一个独一无二的LOCUS名称，所以数据库还不能将其彻底去掉。可行的办法是代之以一个独一无二的词，最简单的是用一个保证不会重复的检索号码，象例子中的AF010325那样，以满足对LOCUS名称的要求。 **********************

下一项是序列长度，从1到350,000bp。在实践中GenBank和其他数据库很少接受50bp以下的记录。所以一般不鼓励将PCR引物（24bp）作为序列提交给数据库。350kb限制是一个经验值，各个数据库用不同的方法提供更长的重叠群。 **********************

LOCUS行中的下一项表明生物分子的类型。“分子类型”通常是DNA或RNA，但也有少量其他类型出现，它们也都表明单链或双链（ss或ds）。这些属性现在已经很少使用了，这也是另一个历史遗留物。这些包括类型：DNA、RNA、tRNA、rRNA、mRNA和uRNA，以表明生物分子的最初来源。例如，cDNA测序实际上代表了一个mRNA，而mRNA才是这个序列真正的分子类型。如果tRNA或rRNA是直接或以cDNA为中介测序的，那么tRNA或rRNA就是分子类型。如果序列是通过聚合酶链反应（PCR）从基因组数据中得到的，那么DNA是分子类型，尽管这一序列实际上编码结构RNA。

**********************

下一项是GenBank分类码，由三个字母组成，这或者具有物种分类意义，或者出于其他分类目的。这一代码的存在也是由于历史的原因，可以追溯到GenBank为了保持可管理的文件大小而将整个数据库按物种分类分割为几个文件的时候。GenBank的分类与EMBL以及DDBJ略有不同，这在其他文献中有介绍（Ouellette and Boguski, 1997）。在历史上这种分类是非常随意的，现在已不再象历史上那样起到重要的作用，因为物种分类信息已经表现在了“生物体”行以及“来源”特性中。这比仅用三个字母作为分类码要清晰明确得多。NCBI近几年来没有再采用更多的基于生物体的分类，但有些新的基于功能的分类却显得越来越重要，因为它们代表了功能方面可定义的差别（Ouellette and Boguski, 1997）。已表达序列标记（EST）分类在1993年被采用，其后很快又增加了序列标记位点（STS）类。还有基因组综述序列（GSS）和未完成的高通量基因组序列（HTG）都代表了按功能划分的一类数据，这些都要求用户以及数据库工作人员用不同的方法来处理。例如，用户可以在这些数据集中检索（例如通过FLASTN在EST或HTG分类中查找），并对命中的记录做进一步分析解释。这时，所有数据库均以相同的方式来说明功能性分类，并且在任一数据库中所有的数据集都会出现在同一分类中。CON类是一个正在计划被使用的新的实验性分类，将用来表征通过重叠群构造的片段或大的整合序列。这样就很有可能超出现在对单一记录的350kb限制。这样的记录可能以如同附录2.4的形式出现，这个CON类记录给出了大肠杆菌的全基因组序列，长度在4.6mb以上。这个记录没有包含序列或注释，但包含了如何将存在于其他分类中的片段拼接成完整序列的指示。这一实验性分类中的记录将带有检索号和版本号，并且同其他记录一样，在几个合作者之间交换。所有被切分的数据也将出现在这一分类中。 *********************

LOCUS行中的日期是数据最后被公开的日期。在许多情况下，也是第一次被公开的日期。记录中包含的另一个日期是序列提交给数据库的日期（见下面）。必须注意的是，这两个日期并没有法律保证，数据库并未声明这两个日期是正确的。所以它们只供用户参考，并不能作为仲裁的判据。就作者的经验，它们也从未被用以作为优先权声明或专利权请求的依据。 **********************

DEFINITION行（也称为“DEF”行）在GenBank记录中用以总结记录的生物意义。这一行将出现在NCBI的FASTA文件中，这样任何人进行BLAST相似性搜索时都会看到这些信息。生成这一行时要非常小心，因为许多记录生成工作可以部分地自动进行。所以数据库工作人员要检查这一行以保证信息的一致性和有效性。但是，用一行文字来说明生物背景并不总是可行的，对此不同的数据库采用了各自的解决方法。其中有一些共识，并且每个数据库也都了解其他数据库的解决方法，

并尽力与之一致。下面是DEFINITION行结构标准的一个小结。对于mRNA，可以象这样：

属种产物名称（基因符号） mRNA complete cds 或者对于基因组记录：

属种产物名称（基因符号） gene complete cds 当然，各个数据库采用的解决方法也考虑到了其他类型的记录。下列这些规则应用于细胞器序列，以保证用户及数据库工作人员明了DNA的来源和生物背景（假定提交者是明了的）：

DEFINITION 属种蛋白质X（xxx） gene，（下列选一） complete cds.

, 编码线粒体蛋白质的核基因 , 编码叶绿体蛋白质的核基因

, 编码线粒体蛋白质的线粒体基因 , 编码叶绿体蛋白质的叶绿体基因或者

DEFINITION 属种 XXS 核糖体RNA gene，（下列选一） complete sequence.

, 编码线粒体RNA的线粒体基因 , 编码叶绿体RNA的叶绿体基因

基于一项合作数据库之间最近达成的协议，将在DEFINITION行中给出属和种的全名，而不再使用通用名（如human）或属名缩写（如H.sapiens）。数据库中在此协议之前生成的记录将最终按此协议进行更新。只有一个生物在这个协议之外，那就是人免疫缺陷病毒将在DEFINITION行中表示为HIV1和HIV2。 ****************** 检索号在记录的第三行，是从数据库中检索一个记录的主要关键词。这个号码将在参考文献中被引用，并始终和序列在一起。就是说，当序列被更新（例如更正一个核苷酸）时，这个号码不会改变。检索号码采取下列两种方式之一：1+5或2+6格式。1+5格式是指1个大写字母后跟5位数字；2+6格式是指2个大写字母后跟6位数字。绝大多数新近加入数据库的记录采取后一种方式。所有的GenBank记录都只有一个单独的ACCESSION行，行中可能有多个检索号码，但绝大多数情况只有一个检索号。这通常称为主检索号码，其余的是二级检索号码。 *********************

不幸的是，在以前二级检索号码还有一些不同的含义，但定义方式并不统一。二级检索号码可能与主检索号码相关，或者主检索号码只是已经取消的二级检索号码的替代品。合作数据库正在努力使后者成为任何情况下的缺省方式。但因为二级检索号码已经使用了15年以上（在此期间GenBank的管理方式也经过了多次调整），能阐述所有情况的全部数据已无从得到。 *********************

NID行是了核苷酸序列的gi号码（geninfo identifier）。前缀字母（d，e或g）表明是哪一个数据库生成了这个号码，或这一号码用于哪个数据库。因为NCBI首先使用了这个号码，所以DDBJ和EMBL用NCBI（GenBank）指定的号码来填充他们的数据库。简单地说，一个gi号码对应于一个核酸序列（蛋白质序列也有gi号码）。当序列改变时，gi号码也改变，但检索号码不变。

现在出现了第三种标识符。合作数据库已同意将版本号加在不同版本的序列上

搜索更多关于：序列文件格式：fasta 格式和 Flatfile 格式的文档

版权认领

下载文档10.00 元 加入VIP免费下载

推荐下载

本文作者：...

共分享92篇相关文档

文档简介：

1、序列文件格式：fasta 格式和 Flatfile 格式 fasta格式数据库被用来存放原始数据，以及一系列附加的注释。不同的检索工具和程序利用了这些信息中的不同部分。纵观各种格式，我们可以发现其中应用了一些共同的规则，以使得多种情况下在不同格式之间生成和交换数据成为可能。最便于人阅读的格式对计算机程序来讲很可能并非是最有效率的（例如GenBank flatfile，这是一种人可以阅读的ASN.1版本）。这些记录还有二进代码版，更加紧凑，计算机处理也更快。但不幸的是，由于历史的原因，对一种固定格式的频繁使用使得引入另一种格式极为困难，尽管新的格式可能更加富含信息，更加准确，易于复制和计算，易于抽取信息，易于使用。GBFF的简单性，使我们都可以获得易用的工具，这也是EMBL和GBFF极大通用性的重要原因。作为最简单的格式，一个DNA序列可以表示为一

序列文件格式：fasta 格式和 Flatfile 格式

相关文档

相关推荐