在我们发表高通量测序文章之前通常要上传测序数据到GEO数据库,现总结流程如下。
GEOarchive spreadsheet format
,并下载Metadata spreadsheet
, 通常是Download metadata spreadsheet (template and examples) UPDATED!,官方推荐下载最新版,这儿就提供链接了。md5sum filename
来获取; Windows下可以在网上搜索一个MD5值计算工具,比如http://www.winmd5.com/。lftp
上传; Windows可以使用FileZilla.为了方便lftp上传,我写了一个bash脚本, 命名为GEO_upload.sh
,只需提供FTP服务器的地址、用户名、密码、上传文件所在目录和上传到FTP服务器的目录即可。
GEO_upload.sh -f ftp-private.ncbi.nlm.nih.gov -u geo -p password -t fasp/detination_dir/ -s localdir/
为了简单方便,localdir
里面只包含需要上传的文件,包括原始测序文件, 处理后文件和Metadata spreadsheet。
#!/bin/bash
#set -x
set -e
set -u
usage()
{
cat <<EOF >&2
${txtcyn}
Usage:
$0 options${txtrst}
${bldblu}Function${txtrst}:
This script is used to upload files to an FTP server using lftp.
${txtbld}OPTIONS${txtrst}:
-f FTP address ${bldred}[NECESSARY]${txtrst}
-u User name ${bldred}[NECESSARY]${txtrst}
-p Password ${bldred}[NECESSARY]${txtrst}
-t Target dir ${bldred}[NECESSARY]${txtrst}
-s Source dir ${bldred}[NECESSARY]${txtrst}
EOF
}
ftp=
user=
passwd=
target=
source_dir=
while getopts "hf:u:p:t:s:" OPTION
do
case $OPTION in
h)
usage
exit 1
;;
f)
ftp=$OPTARG
;;
u)
user=$OPTARG
;;
p)
passwd=$OPTARG
;;
t)
target=$OPTARG
;;
s)
source_dir=$OPTARG
;;
?)
usage
exit 1
;;
esac
done
if [ -z $ftp ]; then
usage
exit 1
fi
cat <<END >lftp.script
open -u ${user},${passwd} ${ftp}
mkdir -p ${target}
cd ${target}
cache size 33554432
set cmd:parallel 10
mput -c ${source_dir}/*
END
lftp -f lftp.script
fasp
目录。创建目录并进入
。传输
—对已存在文件的默认操作
—选择上传-继续文件传输
即可实现断点续传。重连次数
: 编辑
-设置
-最大重试次数 99; 登陆重试延时 200; 超时秒数 20
Receiver: geo@ncbi.nlm.nih.gov
Subject: ftp upload
Context:
Dear Sir/Madam,
Thanks for you kindly host such great public data resource.
I have successfully transferred my data to NCBI-GEO ftp sever.
Here is the information you may be needed for further processing
1. GEO account username: 我的GEO用户名
2. Names of the directory and files deposited: 文件上传的路径, 对应上
面的fasp/detination_dir/
3. Public release date: 2018-12-31 文件释放时间,一般可以设置的比较远
If there is any format or content problem, please do not hesitate to
contact me.
Best,
Name
待GEO的工作人员审核处理后,你可以在GEO的账户下查看已上次的数据的GEO 号和供Reviewer访问的私人链接用于文章审阅。
另外还可以借助airflow,使得上传更加自动化,具体程序见 GEO_upload.py。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有