生信中常用的文件格式认识(一)-----fasta和fastQ

如题所述

第1个回答 2022-06-16

fasta格式形式如下图，由两部分组成。

第一部分 ：以大于号“ > ” 开头，接着是序列的标识符“gi|187608668|ref|NM_001043364.2|”，然后是序列的描述信息。注意区分大小写，且不能出现空格，空格表示序列标识符结束；随后是序列的描述信息。所有来源于NCBI的序列都有一个gi号“gi|gi_identifier”，gi号由数字组成，具有唯一性。一条核酸或者蛋白质改变了，将赋予一个新的gi号（这时序列的接收号可能不变）。gi号后面是序列的标识符，标识符由序列来源标识、序列标识（如接收号、名称等）等几部分组成，他们之间用“|”隔开，如果某项缺失，可以留空但是“|”不能省略。
第二部分 ：是序列本身信息，使用既定的核苷酸或氨基酸编码符号，通常核苷酸符号大小写均可，而氨基酸常用大写字母。使用时应注意有些程序对大小写有明确要求。一般每行60～80个字母。直到遇到下一个" > "结束。
fasta格式在拓展的文件命名中，一般会约定俗成：

fastQ格式形式如下图，由四部分组成。

第一部分 ：由'@'开始，后面跟着序列的描述信息，这点跟FASTA格式是一样的。
第二部分 ：是序列。
第三部分 ：由加号' + '开始，后面也可以跟着序列的描述信息。跟随着该read的名称（一般与@后面的内容相同），但有时可以省略，但“+”一定不能省。
第四部分 ：是对第二行序列的质量评价（quality values，注：应该是测序的质量评价），字符数跟第二行的序列是相等的。

fastQ文件用途：样品测序返回的数据一般存储为fastq文件，通常是压缩文件 filename.fq.gz 的格式，节省存储空间和传输时间。

相似回答

生物信息学常见数据格式答：fasta 是一种基于文本用于表示核酸序列或多肽序列 的格式。其中核酸或氨基酸均以单个字母来表示，且允许在序列前添加序列名及注释。特征：2部分-- id行和序列行。 > id行以“>”开头, 后跟序列名称&序列描述。有时候会包含注释信息 > 序列行一个字母表示一个碱基/氨基酸（A、T...

大家正在搜

ps中常用的文件格式有哪些电脑经常用的文件格式常用文件格式有哪些常用音频文件格式文件格式或文件扩展名无效常见文件格式视频的文件格式是什么论文文件格式 iges文件格式