"或";"开头,用于标识序列的名称或描述,如">MCHU - Calmodulin - Hu" />
在生物信息学领域,FASTA格式是一种常见的序列文件格式,用于存储DNA或蛋白质序列。文件的第一行通常以">"或";"开头,用于标识序列的名称或描述,如">MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken",这是对序列的标记。从第二行开始,序列数据以特定的编码符号呈现,核苷酸通常使用大写或小写,例如A代表Adenosine,而氨基酸则常用大写字母,如A代表Alanine。
例如,一条氨基酸序列在FASTA格式中的样子如下:
MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken
ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID
FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA
DIDGDGQVNYEEFVQMMTAK*
FASTA格式支持的核苷酸代码包括A、C、G、T、U、R、Y、K、M、S、W、B、D、H、V、N、X和Z,它们分别代表特定的核苷酸或氨基酸。例如,X通常用于表示序列中的间隙,长度未知。
对于氨基酸,支持的代码如下:
A: Alanine
B: Aspartic acid or Asparagine
C: Cysteine
... (其余氨基酸代码同理)
在使用FASTA格式时,注意序列文件中每行的字符长度通常不超过80个,且在处理时可能需要考虑大小写规则,根据不同的程序要求进行相应调整。
在生物信息学中,FASTA格式(又称为Pearson格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。