首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >转录组 课前背景

转录组 课前背景

原创
作者头像
青柠味
修改2025-06-07 16:14:22
修改2025-06-07 16:14:22
1730
举报

本篇内容引自生信技能树

一、课前背景

1、转录组数据分析一般流程

转录组数据分析一般流程
转录组数据分析一般流程

2、转录组概述

(1)分析准备

课题实验设计、测序方案选择,不同数据质控点

(2)核心分析

表达定量、差异表达分析、功能层面解释

(3)高级分析内容(自学)

可视化、其它RNA组学、其它组学联合分析

3、转录组的几种分析策略

(a)有参考的DNA基因组序列

(b)有参考的转录组层面的RNA序列

(c)没有基因标准参考的序列

4、应用案例

(1)airway data(课上使用数据)

(2)肺癌耐药关键gene筛选(课上实战案例)

(3)非模式物种辣椒(课上实战案例)

(4)非模式物种人参(课上实战案例)

5、转录组测序原理——中心法则

中心法则
中心法则

基因组学、转录组、蛋白组、代谢组、表观组(DNA上的遗传表观:甲基化、乙酰化;RNA上的表观调控)、互作组(蛋白质之间,RNA之间,DNA序列和转录因子之间)

6、转录组概念

(1)转录组的概念

一群细胞或所有细胞里面的所有RNA转录本,有很多类型,分为编码和非编码。

(2)编码RNA-mRNA

mRNA具有经典的5’帽子和3’polyA尾巴(根据它提取)。

(3)长链非编码RNA-lncRNA

是一类转录本长度超过200nt、不编码蛋白的RNA;

少部分lncRNA具有 3’polyA尾巴

(4)环状RNA-circRNA

封闭环状结构。

(5)微小RNA-microRNA

一类内生的、长度约20-24nt的小RNA。

(6)其他非编码小 RNA/sncRNA之----- piRNA

(7)其他sncRNA之----- tsRNA—低丰度

(8)不同RNA在细胞中的绝对数量

(9)不同基因类型之:gene_biotype

PPT里链接请留意
PPT里链接请留意

7、参考基因组注释文件-gff/gtf文件介绍

注释gff文件格式
注释gff文件格式
第三列type
第三列type
第九列详解
第九列详解
GFF和GTF
GFF和GTF

习题

R语言里演示了一遍,自己用bash编程语言写答案

type和biotype一定要分清

我的答案如下(感觉我写的蛮复杂,肯定有更简单的答案):

less -NS Data/Homo_sapiens.GRCh38.102.chromosome.Y.gff3.gz | grep -v '^#' | cut -f 9 | grep -w -n '^ID=gene' > file1

less -NS file1 | awk -F ';' '{print $1,$2,$3}' | sed -e s/ID=gene://g -e s/biotype=/'\t'/g -e s/Name/'\t'/g > file2

8、转录组测序实验流程图

流程图
流程图

(1)RNA样品检测

纯度和完整性检验
纯度和完整性检验

(2)文库构建

cDNA文库构建,画红框的部分
cDNA文库构建,画红框的部分

(3)边合成边测序

SBS
SBS

上机测序完成之后得到的测序数据:FASTQ文件

二、准备工作——工作目录

代码语言:sh
复制
# 默认展开所有层,使用-L参数控制展开的目录层级
tree ./ -L 1 

# 查看整个分析目录准备结构
tree ./

三、FASTQ数据格式介绍

1、fq数据下载,markdown笔记有

2、fastq数据格式

有多少序列,M是10的6次方,百万;

有多少碱基,G是10的9次方,十亿,转录组一般测6个G;

Q20至少要在85%以上,Q30要在90%以上。

3、课后练习

1、 zless -NS SRR1039510_1.fastq.gz | grep -c -E '^@SRR'

2、zless -NS SRR1039510_1.fastq.gz | grep -n '^@SRR' | less -NS

2、zless -NS SRR1039510_1.fastq.gz | sed -n '1~4 p' |less -NS

3、zless -NS SRR1039510_1.fastq.gz | sed -n '2~4 p' |less -NS

4、zless -NS SRR1039510_1.fastq.gz | sed -n '2~4 p' | wc

5、

老师的答案在markdown里面

查看有没有reads重复出现的指令:

zless -S SRR1039510_1.fastq.gz |awk '{ if(NR%4==2) {print} }' | sort | uniq -c | sort -k 1 -n -r | less -NS

4、为什么序列会重复

基因表达量高,转录本数量多,所以转录组数据里面一定是有重复的。

文库里面,有效捕获的序列太少了,当测的数据比较多的时候,重复值会很高;

PCR重复,有samtools这个工具来解决;

统计fq里面序列出现的频率非常有用,将会是排查异常样本的依据。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、课前背景
    • 1、转录组数据分析一般流程
    • 2、转录组概述
      • (1)分析准备
      • (2)核心分析
      • (3)高级分析内容(自学)
    • 3、转录组的几种分析策略
    • 4、应用案例
      • (1)airway data(课上使用数据)
      • (2)肺癌耐药关键gene筛选(课上实战案例)
      • (3)非模式物种辣椒(课上实战案例)
      • (4)非模式物种人参(课上实战案例)
    • 5、转录组测序原理——中心法则
    • 6、转录组概念
      • (1)转录组的概念
      • (2)编码RNA-mRNA
      • (3)长链非编码RNA-lncRNA
      • (4)环状RNA-circRNA
      • (5)微小RNA-microRNA
      • (6)其他非编码小 RNA/sncRNA之----- piRNA
      • (7)其他sncRNA之----- tsRNA—低丰度
      • (8)不同RNA在细胞中的绝对数量
      • (9)不同基因类型之:gene_biotype
    • 7、参考基因组注释文件-gff/gtf文件介绍
      • 习题
    • 8、转录组测序实验流程图
      • (1)RNA样品检测
      • (2)文库构建
      • (3)边合成边测序
  • 二、准备工作——工作目录
  • 三、FASTQ数据格式介绍
    • 1、fq数据下载,markdown笔记有
    • 2、fastq数据格式
    • 3、课后练习
    • 4、为什么序列会重复
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档