首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

使用snakemake编写生信分析流程

下边是snakemake中的一些概念。rule脚本中的一步小的分析叫做rule,名字可以随便起,但是不能重名,也要符合python变量命名规范。...wildcard_constraints: s="|".join(["GSM6001951","GSM6001952"]), u="|".join(["L1","L2""L3""L4"])所以fastp_se中的输入文件只能匹配到如下结果...wrapper: "v1.29.0/bio/fastp"其实这一步相当于从github下载了作者写好的环境文件environment.yaml,conda会建一个虚拟环境,仅提供给fastp使用。...文件,虽然很长,其实就是一个判断你输入内容,然后交给fastp去执行的python脚本,所以我们需要按照作者的要求提供输入和输出文件名字,以及适当的额外参数。.../raw/v1.29.0/snakemake读取config/config.yaml文件configfile: "config/config.yaml"env创建smk环境,用于运行snakemake流程

88540
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    snakemake 学习笔记4

    snakemake如何连接不同的rule 我在stackoverflow中问了一个问题, 获得了答案, 对snakemake的理解也加深了一步....经验所得 每一个snakemake的rule都要有input,output, 里面的内容交叉的地方, 是确定不同rule的依赖, 比如rule1的输出文件(output)b.bed, b.bim, b.fam..., 如果作为rule2的输入文件(input), 那么rule1和rule2就可以关联了. rule all是定义最后的输出文件, 比如rule2的最后输出文件是c.raw, 那么也写为c.raw即可....是b.bed,b.bim,b.fam, 这三个文件也要写, 因为是下一个rule的input文件, 建立依赖关系. 3, rule cfile中建立input, 是上一个rule bfile的输出, 这样就建立的依赖...查看流程图 运行命令: snakemake -s plink.smk 查看流程图: snakemake --dag -s plink.smk |dot -Tpdf >a.pdf ?

    88530

    单细胞drop-seq数据的分析流程以及debug过程

    的分析流程,Snakemake drop文件包含的rule模块包括: fastqc umi_create_whitelist whitelist_for_solo align index_bam collect_rna_metrics...,其中后续的debug部分需要修改makeref.py 、 dropRunner.py和Snakefile_drop.smk 这三个文件的部分代码: dropRunner.py makeref.py environment.yaml...,github的官方作者介绍为{}.R1.fastq.gz 格式,但这个名称格式实际上是错误的,在官方作者的Snakefile_drop.smk文件里,可以查到{samples}_R1.fastq.gz...的代码,也就是说Snakefile文件里能输入的是"_R1"而不是".R1"的文件,如果按照作者的".R1"去命名则不会得到分析结果,所以需要对样本名进行修改: python ~/soft/dropseqRunner-master...笔者发现有些样本的R1文件为20bp,则不会报此错误。

    2.2K20

    如何在 Go 函数中获取调用者的函数名、文件名、行号...

    如果让我们用 Go 设计一个Log Facade,就需要我们自己在门面里获取调用者的函数名、文件位置了,那么在Go里面怎么实现这个功能呢?...) Caller 函数会报告当前 Go 程序调用栈所执行的函数的文件和行号信息。...//获取的是 CallerA函数的调用者的调用栈 pc1, file1, lineNo1, ok1 := runtime.Caller(1) } 函数的返回值为调用栈标识符、带路径的完整文件名...、该调用在文件中的行号。...获取调用者的函数名 runtime.Caller 返回值中第一个返回值是一个调用栈标识,通过它我们能拿到调用栈的函数信息 *runtime.Func,再进一步获取到调用者的函数名字,这里面会用到的函数和方法如下

    6.7K20

    Shell 命令行 从日志文件中根据将符合内容的日志输出到另一个文件

    Shell 命令行 从日志文件中根据将符合内容的日志输出到另一个文件 前面我写了一篇博文Shell 从日志文件中选择时间段内的日志输出到另一个文件,利用循环实现了我想要实现的内容。...但是用这个脚本的同事很郁闷,因为执行时间比较长,越大的文件越长。于是找我,问我能不能实现一个更快的方案。 我想了一下,觉得之前的设计是脱裤子放屁,明明有更加简单的实现方法。...想办法获得我要截取的内容的开始的行号,然后再想办法获得我想截取的文件的结尾的行号,然后用两个行号来进行截断文件并输出。就可以实现这个效果了。...sed 's/^[ \t]*//g' | cut -f1` el=`cat -n $log | grep $e | tail -1 | sed 's/^[ \t]*//g' | cut -f1` # 获取结果并输出到...res.log 文件 sed -n "$sl","$el"'p' $log >> res.log 运行了一下,速度飞起啊!

    2.6K70

    Snakemake入门

    当你整理好流程以后,只需简单替换几个参数,就能快速开始分析一个新的数据。 Snakemake 的另一个强大特性是它的并行处理能力。...当我们运行snakemake ds1_plot.pdf时,它会从规则的output中找到能与ds1_plot.pdf匹配的。当{dataset}为ds1时,二者成功匹配。...snakemake ds1_filtered_plot.pdf 按照入门演示的内容,它首先会从Snakefile中定义的规则中自上而下的进行匹配,这个时候将{dataset}匹配为ds1_filtered...而工作目录下并没有这个文件,它就会继续往下匹配新的规则。接下来,程序发现只要将{csvdata}匹配为ds1就可以实现rule plot中所需的输入文件ds1_filtered.csv。...如果我们修改了数据,程序会识别文件的修改时间判定其为一个新文件,进而重新运行命令。 3Snakemake 参数 Snakemake的参数非常多,常用的有以下几个: -p:打印运行的shell命令。

    32130

    【DB笔试面试797】在Oracle中,可以从exp出来的dmp文件获取哪些信息?

    ♣ 题目部分 在Oracle中,可以从exp出来的dmp文件获取哪些信息? ♣ 答案部分 在开发中常常碰到,需要导入dmp文件到现有数据库。...这里的dmp文件可能来自于其它系统,所以,一般情况下是不知道导出程序(exp)的版本、导出时间或者导出模式等信息的。那么如何从现有的dmp文件中获取到这些信息呢?下面作者将一一讲解。...(一)获取基本信息:导出的版本、时间、导出的用户 下面的示例中exp_ddl_lhr_02.dmp是生成的dmp文件: [ZFZHLHRDB1:oracle]:/tmp>strings exp_ddl_lhr...#C#G #C#G +00:00 BYTE UNUSED (二)获取dmp文件中的表信息 下面的示例中,exp_ddl_lhr_02.dmp是生成的dmp文件: [ZFZHLHRDB1:oracle...如果将US7ASCII字符集的dmp文件导入到ZHS16GBK字符集的数据库中,那么还需要根据文件修改第4行的第3-4个字节(即07 D0之前的2个字节)。 修改前: ? 修改后: ?

    2.5K30

    Python爬虫学习,记一次抓包获取js,从js函数中取数据的过程

    大概看了下,是js加载的,而且数据在js函数中,很有意思,就分享出来给大家一起看看! 抓取目标 ?...但是发现有个js的请求,点击请求,是一行js函数代码,我们将其复制到json的视图查看器中,然后格式化一下,看看结果 ? ?...只是其内容,需要在进行处理一下,我们写到代码中看看 开始写代码 先导入库,因为最终需要从字符串中截取部分,所以用requests库获取请求,正则re匹配内容即可。然后我们先匹配出上述3项 ?...后记 新浪新闻的页面js函数比较简单,可以直接抓到数据,如果是比较复杂的函数的话,就需要深入理解前端知识了,这也是为什么学爬虫,需要学习前端知识的原因!...基本代码没有多少,如果有看不清楚的小伙伴,可以私信我获取代码或者一起研究爬虫哦!

    3.6K10

    Python爬虫学习,记一次抓包获取js,从js函数中取数据的过程

    大概看了下,是js加载的,而且数据在js函数中,很有意思,就分享出来给大家一起看看!...但是发现有个js的请求,点击请求,是一行js函数代码,我们将其复制到json的视图查看器中,然后格式化一下,看看结果 发现里面有可能存在我们需要的内容,比如url、title、intro这3个参数,...猜测就是对应的新闻URL、标题、简介 只是其内容,需要在进行处理一下,我们写到代码中看看 开始写代码 先导入库,因为最终需要从字符串中截取部分,所以用requests库获取请求,正则re匹配内容即可。...先用replace函数提出url中\\,即可得到url,后面的"\u7684\u5317\u4e0a"则是unicode编码,可以直接解码得到内容,直接写代码了 解码用了eval函数,内容为u'unicode...基本代码没有多少,如果有看不清楚的小伙伴,可以私信我获取代码或者一起研究爬虫哦!

    3.9K20

    workflow05-snakemake的进阶操作一

    2-配置文件 我们可以在snakemake中,将使用的通配符或文件信息,写到config 文件中,并通过config访问: samples: A: data/samples/A.fastq...3-输入区块引入函数 比如我们的配置文件如上: samples: A: data/samples/A.fastq B: data/samples/B.fastq 我们就可以通过函数去访问它们...4-日志文件 在shell 工作流中,我们会通过重定向,以将输出保存到文件中。snakemake 同样提供了选项。...会自动创建子目录,看着流程运转,目录里的文件填满,真舒服啊。...我们需要的是排序后的bam,那之前的bam 也确实可以删除节约空间。 而被protected 的文件,无论snakemake 流程如何执行(--forceall),文件始终不会被删除或覆写。

    97431

    沉浸式体验WGBS(上游)

    snakemake 1.2 示范下载Bismark软件 下载了软件之后,会在家目录产生Bismark文件夹,里面放了函数还有说明书,可以下载到本地查看 说明书: Bismark/Docs at master...(需要当前此文件夹中的 FastA 文件,扩展名为 .fa 或 .fasta,每个文件有单个或多个序列)。...Bismark 将在此目录中创建两个单独的文件夹,一个用于 C->T 转换的基因组,另一个用于 G->A 转换的基因组。...-o/--output_dir :输出文件的全路径 --samtools_path:samtools所在文件夹的全路径 --prefix:指定输出文件的前缀 --q/--fastq:输入文件为FastQ...对SAM文件使用Unix“cat”,对BAM文件使用“samtools cat”。所有输入文件的格式必须相同。默认情况下,标头取自要连接的第一个文件。

    3.2K10

    Snakemake — 可重复数据分析框架

    Snakemake的设计灵感来自于Makefile,但它是专门为生物信息学和数据密集型科学工作流设计的,使用Python语言进行工作流的定义,这使得它在生物信息学社区中特别受欢迎。...灵活性:Snakemake允许用户以模块化和可重复的方式定义数据分析步骤,易于修改和重用。 可扩展性:它可以在各种计算环境中运行,从单个计算机到高性能计算集群,甚至是云环境。...snakemake 的基本组成单位叫“规则”,即 rule;每个 rule 里面又有多个元素(input、output、run等)。工作流是根据规则定义的,这些规则定义了如何从输入文件创建输出文件。...output 定义输出文件 shell 程序运行的shell命令 script 自定义脚本 注意: 1、 输入或输出项之间要有逗号。...,可能会发生两个工作 并行运行同一规则想要写入同一文件 3、在shell 命令中,我们可以将字符串分成多行,Python 会自动将它们连接成一行。

    77810

    Linux内核编程--信号量机制

    若sem中唤醒一个阻塞在该信号量上的线程,然后再返回原线程(调用ν操作的线程)继续执行。...五,信号量的处理函数: 对应的头文件: #include 1.得到或者创建一个信号量: semget函数 int semget(key_t key, int nsems, int...(因为fork创建的子进程会继承父进程的内存映射,所以它也可以获取信号量)。...,它的作用是从信号量的值减去一个“1”,但它永远会先等待该信号量为一个非零值才开始做减法。...如果有两个线程都在sem_wait()中等待同一个信号量变成非零值, 那么当它被第三个线程增加 一个“1”时,等待线程中只有一个能够对信号量做减法并继续执行,另一个还将处于等待状态。

    3K30
    领券