PICRUST2 16s扩增子群落功能预测 安装和使用

如题所述

第1个回答  2022-07-07
测试系统:WSL2 Ubuntu 20.04LTS
1.照着 Github 一键安装

错误可能如下:
(1)卡在Solving environment,安装不上去,多半网络问题,多执行几次就好
尽管我使用的也是清华源,但是因为前期设置的.condarc没有使用新版conda的参数设定,所以默认使用的频道依旧为conda官方(海外地址)的,因此solve起来特别缓慢,之后直接使用 conda create -n picrust2 picrust2=2.4.1 -y 解决
我原先的清华源设置:

现在清华源推荐的设置:

(2)安装完成,执行 picrust2_pipeline.py -s study_seqs.fna -i study_seqs.biom -o picrust2_out_pipeline -p 1 总是在 metagenome_pipeline.py 这一步报错,未知问题

2.照着 Github 分步安装

测试也总是出错,不能通过 place_seqs.py 这一脚本

3.针对1中(2)和2解决手段:
更换系统,使用Ubuntu 18.04LTS一键安装,执行下来不会报错,记录该方法在此,目前尚不清楚是何种原因导致Ubuntu 20.04LTS执行失败

之后添加注释

最后对KEGG通路进行分级(脚本参考自 YongxinLiu/EasyMicrobiome )

实际执行步骤分解:

PICRUSt2包装 HMMER 以将研究序列放入参考多序列比对中,然后使用 EPA-NG 或 SEPP 将这些序列放入参考系统发育中。
所谓的“研究序列”将是典型工作流程下的代表性OTU和/或ASV。
工具 GAPPA 用于将生成的 .jplace 对象转换为 newick 格式。
Tips:您的输入研究序列需要在正链上!

PICRUSt2包装了 castor R包 以运行隐藏状态预测( hsp )来预测基因家族丰度。

脚本 metagenome_pipe.py 读取序列丰度表(以bio、TSV或mother shared文件格式的OTUs或asv的丰度)、预测标记基因丰度文件和预测基因家族丰度文件(最后两个文件由 hsp.py 输出)。
序列丰度应该是读数计数,而不是相对丰度。
它将根据预测的标记基因数量对输入的序列丰度表进行归一化。然后,它将确定每个样本的预测功能状况。
Tips:即使输入文件是BIOM格式,输出文件也以制表符分隔。

通路丰度使用与 HUMAnN2 相同的方法计算,基于与途径内反应相关的基因家族丰度(默认将E.C.数重新分组为MetaCyc反应途径)。
可以输入结构化或非结构化通路映射文件(默认情况下映射文件是结构化的),这将根据必需基因家族的存在来识别可能存在的通路集。
pathway_pipeline.py 脚本使用两个默认映射文件。这些文件是默认指定的,因此您无需自己指定!但是,了解此脚本默认执行的操作很有用。
首先使用此映射文件 default_files/pathway_mapfiles/ec_level4_to_metacyc_rxn.tsv 将EC号重新分组为MetaCyc RXNs;
然后,这些MetaCyc RXNs可以使用这个映射文件 default_files/pathway_mapfiles/metacyc_path2rxn_struc_filt_pro.txt 来推断MetaCyc通路丰度。第二个映射文件包含对原核生物中发现的MetaCyc通路子集的通路的反应图。

add_descriptions.py 是一个方便的脚本,它将在您的基因家族或通路丰度表中添加一列,对应于每个功能类别的快速描述。这些描述在picrust2/default_files/description_mapfiles。
您还可以使用自定义映射文件。
相似回答