前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >上传高通量测序原始文件

上传高通量测序原始文件

作者头像
生信宝典
发布于 2018-02-05 02:26:42
发布于 2018-02-05 02:26:42
1.5K02
代码可运行
举报
文章被收录于专栏:生信宝典生信宝典
运行总次数:2
代码可运行

在我们发表高通量测序文章之前通常要上传测序数据到GEO数据库,现总结流程如下。

注册账户、填写MetaSheet

  • 在NCBI GEO官网注册一个账号,然后登陆。
  • 点击Submission Guidelines . 从中查找GEOarchive spreadsheet format,并下载Metadata spreadsheet, 通常是Download metadata spreadsheet (template and examples) UPDATED!,官方推荐下载最新版,这儿就提供链接了。
  • 下载完之后填写表格。表格中有2个样例表,可以参考着填写。
    • 表格里面需要的MD5值在Linux下可以使用命令md5sum filename来获取; Windows下可以在网上搜索一个MD5值计算工具,比如http://www.winmd5.com/。
  • 数据上传,原始测序的fastq一般采用gzip压缩后上传。
    • 在Linux系统,使用的是lftp上传; Windows可以使用FileZilla.

Linux下lftp上传

为了方便lftp上传,我写了一个bash脚本, 命名为GEO_upload.sh,只需提供FTP服务器的地址、用户名、密码、上传文件所在目录和上传到FTP服务器的目录即可。

GEO_upload.sh -f ftp-private.ncbi.nlm.nih.gov -u geo -p password -t fasp/detination_dir/ -s localdir/

为了简单方便,localdir里面只包含需要上传的文件,包括原始测序文件, 处理后文件和Metadata spreadsheet。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#!/bin/bash

#set -x
set -e
set -u

usage()
{
cat <<EOF >&2
${txtcyn}
Usage:

$0 options${txtrst}

${bldblu}Function${txtrst}:

This script is used to upload files to an FTP server using lftp.

${txtbld}OPTIONS${txtrst}:
    -f    FTP address ${bldred}[NECESSARY]${txtrst}
    -u    User name ${bldred}[NECESSARY]${txtrst}
    -p    Password ${bldred}[NECESSARY]${txtrst}
    -t    Target dir ${bldred}[NECESSARY]${txtrst}
    -s    Source dir ${bldred}[NECESSARY]${txtrst}    
EOF
}

ftp=
user=
passwd=
target=
source_dir=

while getopts "hf:u:p:t:s:" OPTION
do
    case $OPTION in
        h)
            usage
            exit 1
            ;;
        f)
            ftp=$OPTARG
            ;;
        u)
            user=$OPTARG
            ;;
        p)
            passwd=$OPTARG
            ;;
        t)
            target=$OPTARG
            ;;
        s)
            source_dir=$OPTARG
            ;;
        ?)
            usage
            exit 1
            ;;
    esac
done

if [ -z $ftp ]; then
    usage
    exit 1
fi

cat <<END >lftp.script
open -u ${user},${passwd} ${ftp}
mkdir -p ${target}
cd ${target}
cache size 33554432
set cmd:parallel 10
mput -c ${source_dir}/*
END

lftp -f lftp.script

Filezilla上传

  • 如图所示,填写好登录所需的信息,然后双击进入fasp目录。
  • 在右侧窗口,点击右键,选择创建目录并进入
  • 将左侧窗口要上传的文件拖动到右侧窗口,开始上传。
  • 在菜单栏的传输对已存在文件的默认操作—选择上传-继续文件传输即可实现断点续传。
  • 设置重连次数: 编辑-设置-最大重试次数 99; 登陆重试延时 200; 超时秒数 20

上传完成后,需要给GEO的管理人员写一封邮件,大体内容如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Receiver: geo@ncbi.nlm.nih.gov

Subject: ftp upload

Context:

Dear Sir/Madam, 

Thanks for you kindly host such great public data resource.

I have successfully transferred my data to NCBI-GEO ftp sever. 

Here is the information you may be needed for further processing

1. GEO account username: 我的GEO用户名
2. Names of the directory and files deposited: 文件上传的路径, 对应上
面的fasp/detination_dir/
3. Public release date: 2018-12-31 文件释放时间,一般可以设置的比较远

If there is any format or content problem,  please do not hesitate to
contact me.

Best, 

Name

获取GEO号

待GEO的工作人员审核处理后,你可以在GEO的账户下查看已上次的数据的GEO 号和供Reviewer访问的私人链接用于文章审阅。

Linux下智能上传

另外还可以借助airflow,使得上传更加自动化,具体程序见 GEO_upload.py。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信宝典 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
GEO数据上传
1、创建账号 将数据上传到GEO数据库,首先要创建并登陆NCBI帐号, 然后进入提交的网址:https://www.ncbi.nlm.nih.gov/geo/info/submission.html 以高通量测序数据为例:
生信编程日常
2023/03/07
2.9K1
GEO数据上传
高通量数据下载还能这样操作?
本文属于转录组入门系列(RAN-seq基础入门传送门 http://www.biotrainee.com/thread-1750-1-1.html )第2部分内容,以一篇Nature文章为例,详细解读如何从NCBI下载高通量测序数据。 文章 AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034 数据 根据文章中的提
生信技能树
2018/03/08
3.2K0
高通量数据下载还能这样操作?
不装了,摊牌了,转录组测序表达量矩阵就这么简单!
虽然说我们确实是在单细胞天地,生信菜鸟团,生信技能树等多个公众号转发了:作者仅提供了fpkm格式表达量矩阵的转录组测序数据集该如何重新分析呢 里面的小技巧,但仍然是各个交流群还是有人发问,关于转录组测序的公共数据集如何分析,因为大家看到的常规教程都是之前的表达量芯片的数据分析流程。
生信技能树
2024/11/21
1140
不装了,摊牌了,转录组测序表达量矩阵就这么简单!
RNA芯片和测序技术的比较(学徒作业)
有学员提出来了一个问题,就是可以比较同样实验设计的表达量探索研究,一个研究使用的是芯片,一个是测序,看看两者的差异基因情况的overlap情况。其实这样的例子非常多,比如下面这样的展现方式:
生信技能树
2020/06/03
1.1K0
wget小细节(geo数据 ,figshare数据)
数据在CNGBdb,https://db.cngb.org/search/project/CNP0002454/
生信技能树
2023/03/01
3.3K0
wget小细节(geo数据 ,figshare数据)
真香!不会写代码也能做单细胞测序分析的工具
单细胞转录组测序(Single cell RNA sequencing)可以在单个细胞水平对转录组进行测序,研究单个细胞内的基因表达情况,同时解决用组织样本测序无法解决的细胞异质性难题,让解析单个细胞的行为、机制及其与机体的关系成为了现实。
用户6317549
2022/04/09
1.5K0
真香!不会写代码也能做单细胞测序分析的工具
Node 转录组数据库批量下载指南
随着转录组研究的深入,研究人员需要从转录组数据库中获取大量的 RNA 测序数据以支持基因表达、选择性剪接等分析。除了我们常用的 GEO(基因表达总库)和 ArrayExpress 数据库,还有一些数据库可以获得 RNA 测序数据比如 Node 转录组数据库 (National Omics Data Encyclopedia, 国家组学数据百科全书:多组学大数据共享平台,Node 数据库)。在本文中,我们将详细介绍 Node 转录组数据库的特点及其批量下载方法,帮助您高效获取所需数据。
叶子Tenney
2025/03/24
670
Node 转录组数据库批量下载指南
上传数据到GEO数据库获得GEO号
我自己的笔记主要是参考官方文档:Submitting high-throughput sequence data to GEOHow to upload files to GEO以及我师兄给我写的教程
生信技能树
2022/01/10
2K0
上传数据到GEO数据库获得GEO号
作者仅提供了fpkm格式表达量矩阵的转录组测序数据集该如何重新分析呢
研究者们在GEO数据库是有数据分享:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE182923
生信技能树
2024/06/08
3340
作者仅提供了fpkm格式表达量矩阵的转录组测序数据集该如何重新分析呢
SRA数据几种常用的下载方法
依据大家上传数据的习惯,绝大多数生物信息学数据都是可以从NCBI上下载到,当然也可以通过DDBJ,EBI去下载。另外,部分科研人员也将数据传到github等其他平台。
小汪Waud
2023/02/16
6.6K0
SRA数据几种常用的下载方法
RNA-seq(2)-1:原始数据下载的几种方法
第1选择--Aspera Connect 如果aspera connect不能下载,推荐sratoolkit的prefetch功能。尽量不要用wget或curl下载,速度慢,且有时下载不完全
Y大宽
2018/09/10
5K0
高通量测序数据质控神器Trimmomatic
高通量测序下机的原始数据中存在一些低质量数据、接头以及barcode序列等,为消除其对后续分析准确性产生的影响,在数据下机以后对原始数据进行质控处理就成了至关重要的环节。Trimmomatic就是一个高通量测序数据质控神器,可以对测序数据进行过滤。
kongxx
2019/03/20
1.7K0
NCBI 上传测序数据
网址:https://www.ncbi.nlm.nih.gov/account/
白墨石
2021/04/16
1.5K0
NCBI 上传测序数据
dbGaP数据库的测序数据当然是可以申请成功的
一般来说,NCBI数据库提供的prefetch命令下载sra文件速度太慢,可以参考:使用ebi数据库直接下载fastq测序数据 , 需要自行配置好,然后去EBI里面搜索到的 fq.txt 路径文件:
生信技能树
2021/07/06
1.7K0
Aspera下载NCBI和EBI文件
Aspera下载: http://downloads.asperasoft.com/connect2/。
生信编程日常
2020/04/01
3.4K0
一文教你学会GEO芯片探针注释
芯片主要以Affymetrix、Agilent、Illumina(对!Illumina不只会测序)这三家为主,而基于不同的使用目的和技术革新,每家又发布了一系列的芯片平台,以Affy为例,在GEO数据库中共有1200+个平台(每个平台在GEO中对应一个GPL*编号):
百味科研芝士
2020/04/30
6.6K1
一文教你学会GEO芯片探针注释
从GEO数据库下载得到表达矩阵 一文就够
在第一讲我们详细介绍了GEO数据库的基础知识及规律,也了解了如何利用官方R包GEOquery来探索GEO数据库,当然,我的生信菜鸟团博客里面也从很多其它角度解析过它,欢迎大家自行搜索学习。总得来说,从GEO数据库里面得到感兴趣数据集的表达矩阵分成两类,最简单的就是直接下载作者归一化好的表达矩阵咯,比较麻烦的就是下载最原始芯片数据,然后根据不同的芯片来一一解读成表达矩阵。 解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 直接下载数据集作者上传的表达矩阵 通常我们默认作者对其芯片数据处理的
生信技能树
2018/03/29
11K0
从GEO数据库下载得到表达矩阵 一文就够
如何从网上超高速(30M/s)下载别人的转录组原始数据?
下载方式一:FTP下载https://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR347/SRR3474721/
Chris生命科学小站
2023/02/28
1.5K0
如何从网上超高速(30M/s)下载别人的转录组原始数据?
iSeq:GSA-SRA-ENA-GEO-DDBJ 数据下载一网打尽
最近需要下载些公共数据,在简书上搜索到了有小伙伴介绍 iseq,测试了下效果不错,可以媲美 KingFisher,虽然还没曾正式发表(预印本),亲测效果不错,推荐。iSeq 是一个 Bash 脚本,允许您从 GSA[1]、SRA[2]、ENA[3] 和 DDBJ[4] 数据库下载测序数据和元数据。
用户1075469
2024/11/23
2540
iSeq:GSA-SRA-ENA-GEO-DDBJ 数据下载一网打尽
单细胞转录组鉴定与骨关节炎相关的关键基因和通路
今天我们复现的文章是2020年发表在Medicine 杂志上的一个单细胞数据挖掘文章,标题是《Identification of the key gene and pathways associated with osteoarthritis via single-cell RNA sequencing on synovial fibroblasts》,文章链接是:https://journals.lww.com/md-journal/Fulltext/2020/08140/Identification_of_the_key_gene_and_pathways.81.aspx
生信技能树
2021/12/04
9670
单细胞转录组鉴定与骨关节炎相关的关键基因和通路
相关推荐
GEO数据上传
更多 >
LV.0
这个人很懒,什么都没有留下~
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验