刘小乐教授的CRISPR-Screen的分析工具除了MAGeCK之外,还有MAGeCK-VISPR 其实从名称看,我一度以为VISPR就只更加侧重于可视化,但当我实操的时候我发现其可以自动生成snakemake文件,实现分析的流程化。
今天就来说一说这自动生成的snakemake文件~
参考文件网页
liulab / mageck-vispr — Bitbucket
https://bitbucket.org/liulab/mageck-vispr/src/master/
还有教学视频MAGeCK-VISPR 2: Pipeline Configuration - YouTube
https://www.youtube.com/watch?v=3maSxhy1JL0
conda create -n mageck-vispr python=3.7
conda activate mageckenv
mamba install -c bioconda -c conda-forge mageck-vispr
示例数据链接:https://bitbucket.org/liulab/mageck-vispr/downloads/esc.testdata.step2.tar.bz2
解压
tar xvf esc.testdata.step2.tar.bz2
目录样式:
# 示例代码
mageck-vispr init path/to/my/workflow --reads path/to/sample1.fastq path/to/sample2.fastq ...
看来需要先确定workflow 从教学视频看,最终目录结构如下
所以我这里的workflow是 ~/MAGeCK_VISPR_test/
# 修改后代码
cd ~/MAGeCK_VISPR_test/
mageck-vispr init ~/MAGeCK_VISPR_test --reads ~/MAGeCK_VISPR_test/esc-testdata/reads/ERR376998.subsample.fastq ~/MAGeCK_VISPR_test/esc-testdata/reads/ERR376999.subsample.fastq ~/MAGeCK_VISPR_test/esc-testdata/reads/ERR377000.subsample.fastq
运行结果:
在~/MAGeCK_VISPR_test/目录下生成了snakemake文件config.yaml
换了文件夹再运行了一次,发现旧文件没有被覆盖。
删了旧的,继续操作
vim config.yaml
修改前
搜索文章信息
修改后 注意看上面给出的tree结果,library文件有显示。
(下图有错,报错示例)
library文件长这样:
修改前
查数据分组,只有ERR376998是对照
修改后
修改前
修改后
(下图有错,报错示例)
这个矩阵文件也在tree图中也有 rra方法需要我们提供分组信息 cat之后长这样
cd ~/MAGeCK_VISPR_test
snakemake -n
说我的文件不存在...
仔细观察作者原本给的yaml文件
猜测这边的library路径应该是以config.yaml文件为参照,提供相对位置就可以了。
顺带把类似的矩阵路径也修改了
修改之后还有报错 报错如下:
说我的day0 label...应该是和design matrix冲突了.. 注释掉
再次
snakemake -n
这下对了,能看到进程总览
运行snakemake文件
snakemake --cores 8
运行结束后的界面
1-能提供完整的pipeline文件,直观看到分析中使用的参数,方便参考和流程的整理
2-结合了snakemake的优势,批量操作便捷