Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >用shell脚本实现转录组测序中 解压-比对-计算基因表达量 一体化

用shell脚本实现转录组测序中 解压-比对-计算基因表达量 一体化

作者头像
戈贝尔光和热
发布于 2018-12-27 07:17:20
发布于 2018-12-27 07:17:20
1.3K00
代码可运行
举报
文章被收录于专栏:HUBU生信HUBU生信
运行总次数:0
代码可运行

这个脚本需要的软件有:hisat2,SRA-toolkit,samtools,htseq-count 有兴趣的同学可以自己去下载并安装好,记得要配置好环境变量!

脚本所用到的参考基因组可以从hisat2官网下载,参考基因组注释文件可以从gencode数据库下载

脚本如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#!/bin/bash
#把sra文件都存放在Sra文件夹里面
#参考基因组和注释文件都在hg19文件夹里面
#qiujunhui 1801963472@qq.com
mkdir Fastq_out #创建一个存放SRA-toolkit解压sra文件的输出文件夹
mkdir Sam_out #创建一个存放用hisat2比对的输出文件夹
mkdir Sorted.bam #创建一个存放用samtools将sam文件排序的生成的bam文件的文件夹
mkdir Counts  #创建一个存放用HTseq-count计算基因表达量的输出文件夹
#批量解压文件
for i in ~/Sra/*sra
do
        echo $i
        #判断sra文件时单端测序还是双末端测序
        num=$(fastq-dump -X 1 --split-spot -Z $i | wc -l | grep [0-9])
        if [ $num -eq 4 ];then
                echo "$i是单端测序"
                fastq-dump $i
                mv ~/Sra/*fastq ~/Fastq_out
                #用hisat2进行比对
                for x in ~/Fastq_out/*fastq
                do
                        echo $x
                        a=$(echo $x | cut -d "." -f1)

                       hisat2 -p 5 -x ~/hg19/genome -U $x -S $a.sam
                        mv ~/Fastq_out/*sam ~/Sam_out
                done
        else
                echo "$i是双端测序!"
                fastq-dump --split-files $i
                mkdir 1Fastq_out
                mkdir 2Fastq_out
                mv ~/Sra/*_1.fastq ~/1Fastq_out
                mv ~/Sra/*_2.fastq ~/2Fastq.out
                #用hisat2进行比对
                for j in ~/1Fastq_out/*_1.fastq
                do
                        for h in ~/2Fastq_out/*_2.fastq
                        do
                                b=$(echo $j | cut -d "_" -f1)
                                c=$(echo $h | cut -d "_" -f1)
                                if [ $b = $c ];then
                                        hisat2 -p 5 -x ~/hg19/genome -U -1 $j -2 $h -S $b.sam
                                mv ~/2Fastq_out/*.sam ~/Sam_out
                                fi
                        done
                done
        fi
done
#用samtools进行排序
for y in ~/Sam_out/*sam
do
        echo $y
        d=$(echo $y | cut -d "." -f1)
        samtools sort -n -@ 5 -o $d.bam $y
        mv ~/Sam_out/*bam ~/Sorted.bam
done
#用HTseq-count进行基因表达量计算
for z in ~/Sorted.bam/*bam
do
        echo $z
        e=$(echo $z | cut -d "." -f1)
        htseq-count -f bam -r name -s no -a 10 -t exon -i gene_id -m intersection-nonempty $z ~/hg19/gencode.v29lift37.annotation.gtf>$ecounts.txt
        mv ~/Sorted_bam/*.txt ~/Counts
done
#把不要的文件夹删除只留下counts文件夹
rm -rf ~/Sra
rm -rf ~/Fastq_out
rm -rf ~/1Fastq_out
rm -rf ~/2Fastq_out
rm -rf ~/Sam_out
rm -rf ~/Sorted.bam

全文结束,欢迎在评论区讨论~

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018/10/31 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
编辑精选文章
换一批
转录组——上游分析
FastQC主页:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
青柠味
2025/06/12
1440
转录组——上游分析
RNA-seq入门实战(二):上游数据的比对计数——Hisat2+ featureCounts 与 Salmon
连续两次求贤令:曾经我给你带来了十万用户,但现在祝你倒闭,以及 生信技能树知识整理实习生招募,让我走大运结识了几位优秀小伙伴!大家开始根据我的ngs组学视频进行一系列公共数据集分析实战,其中几个小伙伴让我非常惊喜,不需要怎么沟通和指导,就默默的完成了一个实战!
生信技能树
2022/07/26
5.2K0
RNA-seq入门实战(二):上游数据的比对计数——Hisat2+ featureCounts 与 Salmon
转录组—上游分析_如何拿到count矩阵
本文档记录GSE149638数据集中下载SRR11652578和SRR11652615原始数据
sheldor没耳朵
2024/08/12
5721
转录组—上游分析_如何拿到count矩阵
第二次RNA-seq实战总结(2)-数据下载并进行数据处理
原始数据来源于这篇文章https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE50177 这篇文章的数据适中,不仅可以用来做RNA-seq,后面我们
戈贝尔光和热
2018/12/27
1.3K0
看优秀本科生如何一周内学会Linux进而搞定RNA-seq上游分析
我是武汉大学基础医学专业第一届的学生,2016年9月刚进大学的时候就选了导师进入实验室接受科研训练。虽然我们实验室不是专门做生物信息学的,但第一次和导师正式交流的时候,她就建议我要学点生信。(巧合的是2016年9月也是生信菜鸟团转型生信技能树的时间点,如果所有的导师都如此明智就好了)
生信技能树
2020/04/14
8.9K1
看优秀本科生如何一周内学会Linux进而搞定RNA-seq上游分析
RNA-seq(5):序列比对:Hisat2
1 HISAT2官网下载 人类和小鼠的索引有现成的,HISAT2官网可以直接下载进行序列比对。如下图所示:选择hg19和mm10的index,文章中RNA-Seq测序数据,可以包括人类和小鼠的数据,因此需要小鼠和人类的索引。
Y大宽
2018/09/10
5.5K0
RNA-seq(5):序列比对:Hisat2
WGCNA升级:CCNA+WGCNA筛选更可靠的候选基因
今天给大家介绍一个WGCNA的新玩法,即一致性共表达网络分析(Consensus co-expression network analysis,CCNA),该方法于2022年9月份发表在 Journal of Advanced Research 杂志(IF=11.4)上,文献标题为:《Consensus co-expression network analysis identifies AdZAT5 regulating pectin degradation in ripening kiwifruit》。
生信技能树
2025/02/19
2710
WGCNA升级:CCNA+WGCNA筛选更可靠的候选基因
单端测序转录组实战:GSE211266(物种小鼠)
对应的文献为 https://www.nature.com/articles/s43018-025-00975-6,于2025年5月26号发表在Nature Cancer杂志上,标题为《Impaired Barrier Integrity of the Skeletal Muscle Vascular Endothelium Drives Progression of Cancer Cachexia》。
生信技能树
2025/06/09
1170
单端测序转录组实战:GSE211266(物种小鼠)
做过1000遍RNA-seq的老司机告诉你如何翻车
熟悉我的人都知道RNA-seq是我的拿手好戏(如果你不熟悉我,今天过后请记住)。 但是我今天处理了一个公共数据,比对率低的惊人。 究竟为什么会发生这种小概率事情呢? 是测序数据质量不好? 难道grcm
生信技能树
2018/03/08
3.6K0
做过1000遍RNA-seq的老司机告诉你如何翻车
生信技能树-day18 转录组上游分析-比对、定量
今天的是三周合计15天的数据挖掘授课学员一点一滴整理的授课知识点笔记哦,还有互动练习题哈,欢迎大家点击文末的阅读原文去关注我们学员的公众号哦!
生信菜鸟团
2024/06/25
5200
生信技能树-day18 转录组上游分析-比对、定量
转录组上游分析—使用iseq下载原始数据、小鼠基因组、单端测序数据处理
进行数据集GSE105789上游分析的时候,总共才四个数据集,使用prefetch下载的时候,不知道网络抽了什么风,速度一直都很慢。下了10个小时才下了三分之一。!
sheldor没耳朵
2024/08/21
4561
转录组上游分析—使用iseq下载原始数据、小鼠基因组、单端测序数据处理
一个RNA-seq数据分析的Snakemake流程
但是如果RNA-seq数据分析项目非常多,或者说每个项目里面的样品非常多, 这个时候我们会推荐流程化管理我们的脚本,我个人的数据分析生涯主要是shell脚本,因为并不是企业级项目管理,能跑十几个项目还是因为要去给粉丝帮忙。对企业生产实践来说,Snakemake流程化管理各个NGS数据分析流程是一个很好的选择,恰好看到了一个最新的 Snakemake workflow, 推荐给大家。
生信技能树
2021/12/17
1.3K0
一个RNA-seq数据分析的Snakemake流程
RNAseq分析流程-Hisat2+Samtools+Stringtie
首先,分析RNAseq要对整个分析流程有个整体的了解: 参考https://tiramisutes.github.io/2018/12/04/ref-RNA-seq.html 详细介绍了主要用到的分析工具和流程。这里我主要介绍一下我常用的分析流程 拿到原始数据首先需要对文件完整性进行检查
生信编程日常
2020/04/01
1.2K0
RNA-seq分析简洁版
Tumor:SRR316214,SRR316215 Adjacent Normal Liver:SRR316212,SRR316213
Y大宽
2018/09/10
2.8K0
RNA-seq分析简洁版
原创10000+生信教程大神给你的RNA实战视频演练
推荐使用偷懒方法,比如安装miniconda软件,下载地址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/ 这样就可以使用它安装绝大部分其它软件。
生信技能树
2018/08/16
3.1K0
WGS分析实战-01:从SRA数据下载到构建GenomicsDatabase
用于实战的数据集来自下面这篇于2017年发表在The Plant Journal的文章《Different mutational function of low- and high-linear energy transfer heavy-ion irradiation demonstrated by whole-genome resequencing of Arabidopsis mutants》
生信菜鸟团
2022/04/08
2.2K0
WGS分析实战-01:从SRA数据下载到构建GenomicsDatabase
转录组测序分析专题——比对/定量
NCBI:https://www.ncbi.nlm.nih.gov/projects/genome/gu ide/human/index.shtml
yurric
2023/10/26
1K0
Hisat2/StringTie/Ballgown转录组数据分析实例(拟南芥)
https://bi.biopapyrus.jp/rnaseq/mapping/hista/hisat2-paired-rnaseq.html
用户7010445
2020/03/19
3.9K0
Hisat2/StringTie/Ballgown转录组数据分析实例(拟南芥)
转录组上游分析流程(四)
环境部署——数据下载——查看数据(非质控)——数据质控——数据过滤(过滤低质量数据)——数据比对及定量
凑齐六个字吧
2024/10/26
2400
转录组上游分析流程(四)
Chip-seq上游分析流程学习(一)
这次用到的数据集是GSE274995,里面包含了3个样本的头颈部鳞癌细胞系(Cal27细胞)数据。
凑齐六个字吧
2024/11/17
2330
Chip-seq上游分析流程学习(一)
推荐阅读
相关推荐
转录组——上游分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验