Transcriptome is the set of all RNA transcripts, including coding and
non-coding, in an individual or a population of cells
主要以mRNA为分析对象
一个细胞中的绝大多数RNA为rRNA(核糖体RNA)
Agilent 2100精确检测RNA的完整性,检测指标包括:RIN值、28S/18S、图谱基线有无上抬、5S峰
SBS(Sequencing-by-Synthesis):通过单分子阵列实现在小型芯片(Flowcell)上进行桥式PCR反应。通过可逆阻断技术实现每次只合成一个碱基,再利用四种带有不同荧光标记的碱基,通过荧光激发/捕获 ,读取碱基信息
基于可逆终止的、荧光标记dNTP,边合成边测序
经过桥式PCR扩增后,形成成千上百万与模板链相同的序列(簇),荧光强度增强
根据barcode分离混在一起的数据
上机测序完成之后得到的测序数据:FASTQ文件
一般以fastq/fq结尾保存在FASTQ格式的文件中
ls list 列出都有什么
pwd 打印当前工作目录
cd 切换目录
cp 拷贝和粘贴
mv 移动和重命名
rm 删除(删了就没有,没有回收站)
touch 创建文件
mkdir 创立一个新的目录
rmdir 删除目录
ln 链接文件(创建快捷方式)
tar 压缩或者解压文件
zip/unzip 压缩与解压缩zip结尾文件
gzip/gunzip 压缩与解压缩gz结尾文件
查看:head/tail,cat/tac,less/more,zcat/zless
统计,排序,去重:wc,|,sort,uniq,tr,paste
剪切,黏贴,分割:cut,split
高级处理之三驾马车:grep,sed,awk
which命令:定位可执行文件的位置
查找ls这个命令的位置
whereis命令:定位文件所在目录。
输出信息:命令本身所在目录;其源文件所在目录;其帮助文档所在目录
find命令:查找以……结尾/某个特征的文件
指明要在哪个目录下查找(路径)
查找.gz结尾的文件
locate命令:查找文件(较常用),速度非常快,在updatedb里面,需要更新数据库
sudo updatedb
locate *fq
查找以fq结尾的文件
cat -A可以查看特殊字符
这一部分非常非常非常重要,拥有一个优秀的工作习惯比什么都重要!
具体项目的命名方式:物种+样本数+疾病+转录组分析
建立目录的代码:
## 1.建立数据库目录:在数据库下建立参考基因组数据库,注意命名习惯:参考基因组版本信息
mkdir -p database/GRCh38.105
## 2.建立项目分析目录
mkdir project
cd project
mkdir Human-16-Asthma-Trans # 注意项目命名习惯:物种-样本数-疾病-分析流程
cd Human-16-Asthma-Trans
# 建立数据存放目录
mkdir -p data/rawdata data/cleandata/trim_galore data/cleandata/fastp
# 建立比对目录
mkdir -p Mapping/Hisat2 Mapping/Subjunc
# 建立定量目录
mkdir -p Expression/featureCounts Expression/Salmon
# 查看整个分析目录准备结构
tree
高通量测序(如Illumina NovaSeq等测序平台)得到的原始图像数据文件,经碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),我们称之为Raw Data或Raw Reads,结果以FASTQ(fq)文件格式存储,其中包含测序序列(Reads)的序列信息以及其对应的测序质量信息。
碱基质量值十位数上的数字与碱基识别精度有几个9相对应
Q值与FASTQ数据通过ASCII码转换
根据测序仪器的不同,Q值一般在0-40之间,Q通常会加上一个数字(33/64),常用Q+33
FASTQ格式文件中每个read由4行来描述
最近进度停滞不前了……因为原始数据下载的时候频频出现问题:用prefetch下载之后还要用fast-dump转换成fastq格式,非常之慢;用aspera下载又碰到密钥、路径等等问题,下载了一个星期都还没弄好……
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。