本篇内容引自生信技能树
课题实验设计、测序方案选择,不同数据质控点
表达定量、差异表达分析、功能层面解释
可视化、其它RNA组学、其它组学联合分析
(a)有参考的DNA基因组序列
(b)有参考的转录组层面的RNA序列
(c)没有基因标准参考的序列
基因组学、转录组、蛋白组、代谢组、表观组(DNA上的遗传表观:甲基化、乙酰化;RNA上的表观调控)、互作组(蛋白质之间,RNA之间,DNA序列和转录因子之间)
一群细胞或所有细胞里面的所有RNA转录本,有很多类型,分为编码和非编码。
mRNA具有经典的5’帽子和3’polyA尾巴(根据它提取)。
是一类转录本长度超过200nt、不编码蛋白的RNA;
少部分lncRNA具有 3’polyA尾巴。
封闭环状结构。
一类内生的、长度约20-24nt的小RNA。
R语言里演示了一遍,自己用bash编程语言写答案
type和biotype一定要分清
我的答案如下(感觉我写的蛮复杂,肯定有更简单的答案):
less -NS Data/Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz | grep -v '^#' | cut -f 9 | grep -w -n '^ID=gene' > file1
less -NS file1 | awk -F ';' '{print $1,$2,$3}' | sed -e s/ID=gene://g -e s/biotype=/'\t'/g -e s/Name/'\t'/g > file2
上机测序完成之后得到的测序数据:FASTQ文件
# 默认展开所有层,使用-L参数控制展开的目录层级
tree ./ -L 1
# 查看整个分析目录准备结构
tree ./
有多少序列,M是10的6次方,百万;
有多少碱基,G是10的9次方,十亿,转录组一般测6个G;
Q20至少要在85%以上,Q30要在90%以上。
1、 zless -NS SRR1039510_1.fastq.gz | grep -c -E '^@SRR'
2、zless -NS SRR1039510_1.fastq.gz | grep -n '^@SRR' | less -NS
2、zless -NS SRR1039510_1.fastq.gz | sed -n '1~4 p' |less -NS
3、zless -NS SRR1039510_1.fastq.gz | sed -n '2~4 p' |less -NS
4、zless -NS SRR1039510_1.fastq.gz | sed -n '2~4 p' | wc
5、
老师的答案在markdown里面
查看有没有reads重复出现的指令:
zless -S SRR1039510_1.fastq.gz |awk '{ if(NR%4==2) {print} }' | sort | uniq -c | sort -k 1 -n -r | less -NS
基因表达量高,转录本数量多,所以转录组数据里面一定是有重复的。
文库里面,有效捕获的序列太少了,当测的数据比较多的时候,重复值会很高;
PCR重复,有samtools这个工具来解决;
统计fq里面序列出现的频率非常有用,将会是排查异常样本的依据。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。