"或";"开头,用于标识序列的名称或描述,如">MCHU - Calmodulin - Hu" />

fasta格式简介

如题所述

在生物信息学领域,FASTA格式是一种常见的序列文件格式,用于存储DNA或蛋白质序列。文件的第一行通常以">"或";"开头,用于标识序列的名称或描述,如">MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken",这是对序列的标记。从第二行开始,序列数据以特定的编码符号呈现,核苷酸通常使用大写或小写,例如A代表Adenosine,而氨基酸则常用大写字母,如A代表Alanine。


例如,一条氨基酸序列在FASTA格式中的样子如下:



MCHU - Calmodulin - Human, rabbit, bovine, rat, and chicken

ADQLTEEQIAEFKEAFSLFDKDGDGTITTKELGTVMRSLGQNPTEAELQDMINEVDADGNGTID

FPEFLTMMARKMKDTDSEEEIREAFRVFDKDGNGYISAAELRHVMTNLGEKLTDEEVDEMIREA

DIDGDGQVNYEEFVQMMTAK*



FASTA格式支持的核苷酸代码包括A、C、G、T、U、R、Y、K、M、S、W、B、D、H、V、N、X和Z,它们分别代表特定的核苷酸或氨基酸。例如,X通常用于表示序列中的间隙,长度未知。


对于氨基酸,支持的代码如下:



A: Alanine

B: Aspartic acid or Asparagine

C: Cysteine

... (其余氨基酸代码同理)



在使用FASTA格式时,注意序列文件中每行的字符长度通常不超过80个,且在处理时可能需要考虑大小写规则,根据不同的程序要求进行相应调整。


扩展资料

在生物信息学中,FASTA格式(又称为Pearson格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。

温馨提示:答案为网友推荐,仅供参考