前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >usearch教程-OTU表抽平

usearch教程-OTU表抽平

作者头像
用户1075469
发布2024-07-01 14:25:06
3510
发布2024-07-01 14:25:06
举报
文章被收录于专栏:科技记者

USEARCH 是继 Mothur 和 QIIME 之后的第三大流行扩增子分析流程,目前已被引用 20,824 次。USEARCH 由 Robert Edgar 独立编写,使用 C 和 C++ 开发,体积小,运行速度快且功能强大,且不需要依赖其他软件(安装过 QIIME1 和 QIIME2 的用户应该对此深有体会)。

与 Mothur 和 QIIME 不同,USEARCH 的 64 位版本以前并不是开源的,只有 32 位版本是开源的,但由于 32 位版本对计算机内存有限制,无法处理大样本数据。然而,今年六月,Robert Edgar 突然决定将 USEARCH 开源,这对于研究社区来说无疑是一个令人振奋的消息。

在未来的日子里,我和我的同事将使用各大期刊文章中的数据,一起学习 USEARCH 中的常用命令。我们使用的版本是 USEARCH11。通过这些实践,我们希望能够更好地掌握 USEARCH 的强大功能,并在我们的研究中有效地应用它。

官方网址:https://www.drive5.com/usearch/

下载网址:https://github.com/rcedgar/usearch_old_binaries

usearch11帮助文档:https://www.drive5.com/usearch/manual/cmds_all.html

一、软件安装

代码语言:javascript
复制
wegt -c https://github.com/rcedgar/usearch_old_binaries/blob/main/bin/usearch11.0.667_i86linux64
mv usearch11.0.667_i86linux64 usearch
chhmod 755 usearch
usearch --help
# usearch v11.0.667_i86linux64, 17.2Gb RAM, 12 cores
# (C) Copyright 2013-18 Robert C. Edgar, all rights reserved.
# https://drive5.com/usearch
# 
# From 2024 donated to public domain under CC0-1.0 license
# 加入环境变量,方便使用
vim ~/.bashrc
PATH=$PATH:/home/xx/usearch
source ~/.bashrc

二、OTU表抽平

1.数据来源:https://zenodo.org/records/8031031

2.使用usearch -otutab_rare进行抽平

参考文档:https://www.drive5.com/usearch/manual/cmd_otutab_rare.html

代码语言:javascript
复制
usearch -otutab_rare AllSamples_unoise_otu_table1_Exp2.txt -sample_size 50000 -randseed 123 -output rrarefy_otu_table.tsv
# usearch v11.0.667_i86linux64, 17.2Gb RAM, 12 cores
# (C) Copyright 2013-18 Robert C. Edgar, all rights reserved.
# https://drive5.com/usearch

# From 2024 donated to public domain under CC0-1.0 license

# 00:01 8.2Mb   100.0% Reading AllSamples_unoise_otu_table1_Exp2.txt
# 00:01 9.9Mb   100.0% Rarefying                                    
# Deleted 4 samples size < 50000
# Deleted 22 OTUs with size=0 after rarefaction
# Deleted 4 samples with size=0 after rarefaction
# 00:01 12Mb   Writing rrarefy_otu_table.tsv ...done.

参数说明:

-otutab_rare 待抽平的OTU表

-sample_size 抽平的OTU数目

-randseed 设置随机种子(可选)

-output 结果输出文件

日志说明:

本次的抽平的otu数目是50000,有四个样本的OTU数目没有50000,所以抽平之时会将这四个样本删除,有22个OTU抽平之后的总丰度为0,所以将这OTU删除

3.使用R语言检验数据是否进行抽平

代码语言:javascript
复制
# 加载R包
suppressPackageStartupMessages(library(dplyr))
suppressPackageStartupMessages(library(vegan))
# 读入数据并计算每个样本的OTU数目
otu_dat = readr::read_tsv(file = 'AllSamples_unoise_otu_table1_Exp2.txt',show_col_types = F) %>% column_to_rownames(var = '#OTU ID')
colSums(otu_dat) %>% sort()
# 丰度最低的5个OTU
rowSums(otu_dat) %>% sort() %>% head()
# usearch抽平后的数据并计算每个样本的OTU数目
rarefy_dat = readr::read_tsv(file = 'rrarefy_otu_table.tsv',show_col_types = F) %>% column_to_rownames(var = '#OTU ID')
colSums(rarefy_dat) %>% sort()
# 丰度最低的5个OTU
rowSums(rarefy_dat) %>% sort() %>% head()
# vegan包抽平后的数据并计算每个样本的OTU数目
vega_raryfy = rrarefy(t(otu_dat),50000) %>% t() %>% as.data.frame()
colSums(vega_raryfy) %>% sort()
# 丰度最低的5个OTU
rowSums(vega_raryfy) %>% sort() %>% head()

注意:二者的结果中我们可以看出,usearch抽平后会过滤稀有的OTU,而vega_raryfy不会过滤稀有的OTU。

参考文献:

[1] McGrath, A.H., Lema, K., Egan, S. et al. Disentangling direct vs indirect effects of microbiome manipulations in a habitat-forming marine holobiont. npj Biofilms Microbiomes 10, 33 (2024). https://doi.org/10.1038/s41522-024-00503-x

[2] Edgar RC. Accuracy of microbial community diversity estimated by closed- and open-reference OTUs. PeerJ. 2017 Oct 4;5:e3889. doi: 10.7717/peerj.3889.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微因 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档