Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >SMURF(5R)-Science封面文章使用的16S新流程(二)

SMURF(5R)-Science封面文章使用的16S新流程(二)

作者头像
用户1075469
发布于 2021-02-15 04:56:41
发布于 2021-02-15 04:56:41
71300
代码可运行
举报
文章被收录于专栏:科技记者科技记者
运行总次数:0
代码可运行

前面介绍的SMURF流程的运行以失败告终了,不过这个是这篇文章的参考方法,至于这篇文章改进过的方法,还没有试过,这就试一下,顺便考虑是否能把6区的移植过来,搞个6R呢,可能,算法上有略微的区别,毕竟这篇Science研究的是肿瘤中的含量很少的微生物,用了严格的去污染策略,不管怎样,试试吧!

1、环境准备

类似上次那个流程,更加简单了些,只需要安装解压下。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 安装MCR,这次是新版本的9.7,重要的事说三遍,必须有图形界面gui,否则会安装失败
#必须有图形界面gui,必须有图形界面gui
# 下载地址,速度还可以,毕竟大公司
wget https://ssd.mathworks.com/supportfiles/downloads/R2019b/Release/4/deployment_files/installer/complete/glnxa64/MATLAB_Runtime_R2019b_Update_4_glnxa64.zip
# 解压,然后安装,这次不需要加环境变量了,因为变成了脚本的一个参数
# 建议新建一个文件夹解压,否则文件挺乱
sudo ./install
# 克隆脚本
git clone https://github.com/NoamShental/5R.git
# 开始运行示例还是出现了摄氏,发现是fastq压缩成了zip,解压就好啦,在这个文件夹example_fastq
# 文件结构如下
example_fastq/
├── RDB123_ATGAGTGC
│   ├── RDB123_ATGAGTGC_L006_R1_001.fastq
│   └── RDB123_ATGAGTGC_L006_R2_001.fastq
└── RDB1_TTGGTGCA
    ├── RDB1_TTGGTGCA_L001_R1_001.fastq
    └── RDB1_TTGGTGCA_L001_R2_001.fastq
# 后面发现不建立一个样本一个文件夹也是可以的,脚本会自动复制文件到一个新的Samples文件夹
# 结构如下:
 Samples
        └── RDB1_TTGGTGCA
            ├── RDB1_TTGGTGCA_L001_R1_001.fastq
            └── RDB1_TTGGTGCA_L001_R2_001.fastq
# 运行,看结果啦,好像全程使用不超过双核呢,还是样本少,跑不起来
./5R_linux/run_main_5R.sh /usr/local/MATLAB/MATLAB_Runtime/v97 ./example_fastq/RDB1_TTGGTGCA ./GG_5R ./example_results/5R_SMURF_example.txt 126

运行过程比较顺畅,基本不报错,除了两个warning

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
------------------------------------------
Setting up environment variables
---
LD_LIBRARY_PATH is .:/usr/local/MATLAB/MATLAB_Runtime/v97/runtime/glnxa64:/usr/local/MATLAB/MATLAB_Runtime/v97/bin/glnxa64:/usr/local/MATLAB/MATLAB_Runtime/v97/sys/os/glnxa64:/usr/local/MATLAB/MATLAB_Runtime/v97/sys/opengl/lib/glnxa64
Input params are: 
Working on files in directory: ./example_fastq/RDB1_TTGGTGCA
Reconstruction using kmers of length: 126
WORKING ON SAMPLE : RDB1_TTGGTGCA
Part 1/1 - Block 1/2
Part 1/1 - Block 2/2
Number of reads: 299346
Percent of long enough reads: 1
Percent of good reads: 0.95608
Counting fasta write: 1
历时 5.675209 秒。
Mapped to primers 88% of unique reads
Mapped to primers 98% of read counts
Loading bacterial DB for region 1 out of 5 from original region 1
...
Loading bacterial DB for region 5 out of 5 from original region 5
Region 1 out of 5
Keep high freq: 8% of reads
Keep high freq: 89% of counts
Building matrix M
Building matrix A
--------------------------------------------
...
--------------------------------------------
Region 5 out of 5
Keep high freq: 5% of reads
Keep high freq: 90% of counts
Building matrix M
Building matrix A
--------------------------------------------
警告: Make sure PE is supported properly
> In solve_iterative_noisy (line 4)
  In reconstruction_func (line 40)
  In main_multiple_regions (line 56)
  In main_5R (line 57)
Region 1 out of 5
Keeping reads matched to DB: 95% of reads
Keeping reads matched to DB: 97% of counts
--------------------------------------------
...
--------------------------------------------
Region 5 out of 5
Keeping reads matched to DB: 98% of reads
Keeping reads matched to DB: 99% of counts
--------------------------------------------
Filter out columns (bacteria)
警告: TAKE PROPER CARE OF NOT AMPLIFIED REGIONS
> In solve_iterative_noisy (line 90)
  In reconstruction_func (line 40)
  In main_multiple_regions (line 56)
  In main_5R (line 57)
Normalize frequency counts
Build matrix A_L2
Making columns of A unique...
Removing included bacterias...
Removed 8844 out of 10189
警告: Found 721 bacterias with non even number of reads mapped
> In solve_iterative_noisy (line 178)
  In reconstruction_func (line 40)
  In main_multiple_regions (line 56)
  In main_5R (line 57)
Starting iterations...
Total iterations time: 1.1721
Building the Scott files for level: species
Loaded RDB1_TTGGTGCA

从过程来看,6V区的运行过程几乎完全一致,看看结果:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Total # of reads                                                        205605
domain  phylum  class   order   family  genus   species RDB1_TTGGTGCA
Bacteria        Actinobacteria  Acidimicrobiia  Acidimicrobiales        Unknown family  Unknown genus271        Unknown species1        0.002213
Bacteria        Actinobacteria  Actinobacteria  Actinomycetales Actinomycetaceae        Actinomyces     Actinomyces massiliensis        0.000603
Bacteria        Actinobacteria  Actinobacteria  Actinomycetales Actinomycetaceae        Actinomyces     Actinomyces naeslundii  0.000746
Bacteria        Actinobacteria  Actinobacteria  Actinomycetales Actinomycetaceae        Actinomyces     Actinomyces odontolyticus       0.000939

终于见到物种分类结果啦,未分类的它进行了自编号。

试试6V区行不行

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 复制一份出来,开始
cp -r 5R 6R
cd 6R
# 观察文件,替换6R需要的文件
│   ├── GreenGenes_201305_unique_up_to_3_ambiguous_16S_ffpe5regions_2mm_RL160_region1.mat
│   ├── GreenGenes_201305_unique_up_to_3_ambiguous_16S_ffpe5regions_2mm_RL160_region2.mat
│   ├── GreenGenes_201305_unique_up_to_3_ambiguous_16S_ffpe5regions_2mm_RL160_region3.mat
│   ├── GreenGenes_201305_unique_up_to_3_ambiguous_16S_ffpe5regions_2mm_RL160_region4.mat
│   ├── GreenGenes_201305_unique_up_to_3_ambiguous_16S_ffpe5regions_2mm_RL160_region5.mat
│   ├── GreenGenes_201305_unique_up_to_3_ambiguous_16S_headers.mat
│   └── taxonomy_db.mat
# 应该就是这几个文件啦,先删除,文件夹名字就不改啦,防止脚本不识别
rm GG_5R/*
# 物种注释文件吧?
cp ../SMURF/Green_Genes_201305/unique_up_to_3_ambiguous_16S/gg_rdp_taxa_name_calls.mat GG_5R/taxonomy_db.mat
# 序列文件
cp ../SMURF/Green_Genes_201305/unique_up_to_3_ambiguous_16S_amp6Regions_2mm_RL130/*  GG_5R/
# 再把测序文件拉来试试,先删除原来的
rm -r example_fastq/*
cp ../SMURF/Example/* example_fastq/

运行下,看看行不行啦

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
./5R_linux/run_main_5R.sh /usr/local/MATLAB/MATLAB_Runtime/v97 ./example_fastq ./GG_5R ./example_results/5R_SMURF_example.txt 126
# 报少个文件,好像是总的,复制原来的过来试试
cp ../5R/GG_5R/GreenGenes_201305_unique_up_to_3_ambiguous_16S_headers.mat GG_5R/
# 因为没有解压而报错
# WORKING ON SAMPLE : Samples
# 索引超出数组元素的数目(0)。
rm -r example_fastq/Samples/
gunzip example_fastq/*
# 还是报错了,应该是要修改matlab代码才能解决,还是转向qiime2-slide这个插件吧
Mapped to primers 0% of unique reads
Mapped to primers 0% of read counts
索引超出数组元素的数目(0)。

出错 load_bact_DB (line 33)

出错 reconstruction_func (line 9)

出错 main_multiple_regions (line 56)

出错 main_5R (line 57)

MATLAB:badsubscript
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-01-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 科技记者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
SMURF-Science封面文章使用的16S新流程
肠道微生物是近两年的研究热点,但是去年登上Science封面的是一篇研究肿瘤中的微生物的文章,另人眼前一亮,有些肿瘤即使没有与外界环境相通,也是有微生物的存在的。外行看热闹,内行要看看他是具体怎么进行研究的。
用户1075469
2021/02/15
8280
16S流程知多少
16S流程的选择还真不少,除了引用最多的qiime流程,u/vsearch(usearch是一人一已之力单挑学术界)和mothur(用的人越来越少的感觉),最近又发现了一两个流程,一并分享给大家。
用户1075469
2020/06/09
1K0
Kraken2 Vs qiime2 16S物种注释
最早接触Kraken2这个软件是在宏基因组,但官网上说其实这个软件也是可以用于16S物种注释的。当时没怎么在意,后面发现有个美国肠道微生物检测公司Thryve是使用这个软件进行物种注释的。最近发现2020年9月的一篇文章是比较了kraken2和qiime2的物种注释结果,详细见宏基因组公众号的文章。
用户1075469
2021/03/11
1.5K0
Kraken2 Vs qiime2 16S物种注释
2023牛津纳米孔16S测序数据新的探索
有同学和我交流离线的牛津纳米孔16S测序数据分析的问题,感慨的确这种方案还是少的,我想主要原因之前大家的印象还是相比Pacbio和短读长,成本高,准确性还是差了一点吧,16S对准确性要求还是相对高的。不过好处是,临床这种现场特别赶时间的,可以使用官方软件实时获得菌的分类结果。从同学处得到了一个测试数据,先看看质量:
用户1075469
2023/08/26
4580
2023牛津纳米孔16S测序数据新的探索
微生物全长16S | Full-length 16S Analysis -- PacBio Hifi Reads
16S核糖体RNA(16S ribosomal RNA),简称16S rRNA,是原核生物核糖体中30S亚基的组成部分。16S rRNA基因存在于所有细菌的基因组中,长度约为1542 bp,包括 10 个保守区(Conserved region)和 9 个可变区(Variable region),保守区反映了物种间的亲缘关系,而可变区则反映了物种间的差异 (图1)。 16S rRNA基因,其分子大小适中,突变率小,是细菌系统分类研究中最有用的和最常用的分子标志。通过16S扩增子高通量测序,检测16S rDNA可变区的序列变异和丰度,可了解样品中微生物群落多样性和丰度信息,在微生物分类鉴定、微生态研究等方面起着重要的作用。
三代测序说
2024/02/09
3.8K1
微生物全长16S | Full-length 16S Analysis -- PacBio Hifi Reads
靶向分析流程(Pipeline)中的数据质控
从输出文件${sn}_fastp.json文件中获取过滤前后Q20,Q30比例,总的reads
SliverWorkspace
2022/08/28
7910
靶向分析流程(Pipeline)中的数据质控
SMURF流程之q2-sidle(一)
前面说到Science封面文章用的16S数据分析流程有qiime2的插件版本,可以解决基于matlab MCR standalone版本的报错,于是实践一下!https://github.com/jwdebelius/q2-sidle。conda的安装就不表了,教程挺多的。
用户1075469
2021/03/11
6540
SMURF流程之q2-sidle(一)
ChIP-seq详细分析流程
参考生信技能树1以及生信技能树2 只记录从数据下载,到最终结果展示,具体生物学知识请自行查阅 稍后关于ChIP-seq的背景知识我会再发布一篇文章。 数据下载:数据存放地址 关于环境配置和软件安装请参考我之前的RNA-seq分析流程
Y大宽
2018/09/10
4.2K1
ChIP-seq详细分析流程
mSphere:16S rRNA基因测序的引物,平台和参数评估
Link: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8544895/
Listenlii-生物信息知识分享
2022/03/31
1.6K0
mSphere:16S rRNA基因测序的引物,平台和参数评估
使用nf-core的ampliseq(qiime2)流程分析16S数据
最近看到生信技能树的一篇推文在介绍nf-core这个流程管理工具,发现官方有qiime2的流程,学习一下,顺便探索一下中间的坑。关于nf-core,这篇推文已经介绍的够多了,我这里主要学习它的搭建和使用。
用户1075469
2020/04/14
1.4K0
使用nf-core的ampliseq(qiime2)流程分析16S数据
一文读懂微生物扩增子16s测序[通俗易懂]
16S rRNA 基因是编码原核生物核糖体小亚基的基因,长度约为1542bp,其分子大小适中,突变率小,是细菌系统分类学研究中最常用和最有用的标志。
全栈程序员站长
2022/06/27
24K0
一文读懂微生物扩增子16s测序[通俗易懂]
scATAC-seq建库原理,质控方法和新R包Signac的使用
NGS系列文章包括NGS基础、在线绘图、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。
生信宝典
2020/09/27
4.7K0
scATAC-seq建库原理,质控方法和新R包Signac的使用
在R语言中的 ATACseq 数据分析全流程实战(一)
前面我们给大家介绍了非常好的 ATACseq数据分析 pipeline指导综述:综述:ATAC-Seq 数据分析工具大全。
生信技能树
2025/03/14
1790
在R语言中的 ATACseq 数据分析全流程实战(一)
给学徒ChIP-seq数据处理流程(附赠长达5小时的视频指导)
本次给学徒讲解的文章是 : Brookes, E. et al. Polycomb associates genome-wide with a specific RNA polymerase II variant, and regulates metabolic genes in ESCs. Cell Stem Cell 10, 157–170 (2012). 查看文章发现数据是: Polycomb associates genome-wide with a specific RNA polymerase
生信技能树
2018/09/21
12.7K1
给学徒ChIP-seq数据处理流程(附赠长达5小时的视频指导)
一篇文章学会miRNA-seq分析
第一讲:文献选择与解读 前阵子逛BioStar论坛的时候看到了一个关于miRNA分析的问题,提问者从NCBI的SRA中下载文献提供的原始数据,然后处理的时候出现了问题。我看到他列出的数据来自iron torrent测序仪,而且我以前也没有做过miRNA-seq的数据分析, 就自学了一下。因为我有RNA-seq的基础,所以理解学习起来比较简单。 在这里记录自己的学习过程,希望对需要的朋友有帮助。 这里选择的文章是2014年发表的,作者用ET-1刺激human iPSCs (hiPSC-CMs) 细胞前后,观察
生信技能树
2018/03/08
16.1K0
一篇文章学会miRNA-seq分析
一个优秀的ATAC-seq数据分析资源实战(二)
之前我们给大家介绍了两篇ATAC-Seq数据分析pipeline的优秀综述:综述:ATAC-Seq 数据分析工具大全 和 Omni-ATAC:更新和优化的ATAC-seq协议(NatProtoc),我们今天就来实战介绍!
生信技能树
2025/02/28
2390
一个优秀的ATAC-seq数据分析资源实战(二)
【SNP 6.0】TCGA CNV数据分析一条龙
今天要讲的CNV数据是基于Affymetrix SNP 6.0 Affymetrix SNP 6.0 - GDC Docs (cancer.gov)得到的数据:
生信菜鸟团
2023/01/05
4.4K1
【SNP 6.0】TCGA CNV数据分析一条龙
SIFT特征检测(一)
(还没推完公式先贴上matlab和c的代码 from官方文档) 因为官方的shift.m直接跑起来会出问题。我这儿改良了部分代码 改sift.m % [image, descriptors, locs] = sift(imageFile) % % This function reads an image and returns its SIFT keypoints. % Input parameters: % imageFile: the file name for the image. %
Pulsar-V
2018/04/18
1.8K0
Visual Tracking via Adaptive Structural Local Sparse Appearance Model
Visual Tracking via Adaptive Structural Local Sparse Appearance Model
Tyan
2022/05/09
1.9K0
目标检测 - Faster R-CNN 训练过程源码理解
得到的 imdb = pascal_voc(‘trainval’, ‘2007’) 记录的内容如下:
AIHGF
2019/02/18
1.1K0
相关推荐
SMURF-Science封面文章使用的16S新流程
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验