效率
一个一个地处理数据,想想都好麻烦~批量处理才能感受到科技的力量~
处理大样本数据可能遇到的问题
首先,你可以复习下面的教程这样你会得到一个linux系统的云服务器然后,你搜索文献发现有个大牛发了一篇文章里面有几百里样本的RNA-seq原始数据,这个数据被共享在了SRA数据库中,老板说,去挖一下看看。你的内心世界,可能是"哈哈,刚刚学会下载mapping+分析,正好配上用场,而且按照Chris小站教程才10元还不贵,珂珂,撸起袖子~~~"然后,结果是"你妹啊~ 200多例一个一个下,一个一个解压,一个一个mapping这得啥时候弄完啊!!!"半个月过去了,进度才三分之一~~~~"你妹啊~云服务器硬盘不够用了~~~"
解决上面的问题
测序数据挖掘的步骤大致为解决硬盘不够用的问题:按照以下教程下面是解决办法:初级版用以下符号命令a&&命令b这样运行完命令a之后就会运行命令b,但是如果a出现错误,b是无法接着运行的。命令a|命令b
这样代表同时运行命令a和命令b,任何一个出错不会影响其他。但是要估量自己服务器能力,比如同时mapping两个样本,服务器一定会提示“已杀死”这样一些简单操作就可以连续运行了,比如cp(拷贝),mv(移动),gzip(解压),SRA tools等等。对于懂shell编程的大神们上面的问题都是小case,所以大神请飘过~~对于我们这些跨行初学者来说,下面尽量用能粗浅的话解释简单说一下咋用在linux系统中你可以用for循环连续数数,比如从1到10具体命令如下for i in ; do echo $i; done
这样在你会得到
1 2 3 4 。。。9 10
如果你要下载、解压或者Mapping的文件名字后面只有数字在变
,那么我们就可以利用这个语句来实现批量处理。例如下载可以用下面的命令
for i in ;do ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR100/SRR1001"$i"/SRR1001"$i".sra /mydata;done
这样你可以顺序从SRR100127.sra一直下载到SRR100150.sra,并且保存在/mydata文件夹中。例如解压可以用下面的命令
for i in ;do fastq-dump --split-3 -A SRR1001"$i".sra --gzip;done
好吧,Mapping自己猜一下,就不告诉你~~~~
如果数字不连续怎么搞用下面的命令1 2 3 4 5 6 7 8 9 10 15 16 17 18 111大家应该看懂了吧。然后,自己领悟一下,就知道了~~~~你也可以吧&& 和| 与for循环结合起来,这样还能组合出来很多技巧。
你需要注意的问题
首先,由于是批量操作,要计算好硬盘空间,不够了要记得扩容哦,扩容教程在下面其次,由于是批量操作,千万别总去尝试同时进行Mapping | Mapping,否则服务器会经常自杀。最后,你可能会注意到终端操作的问题,就是操作掉线,然后之前执行的进程就被关掉了。这个可以解决,不过是在下一次的教程中,大家关注哦。
没错封面还是跟Apple有关,虽然Apple不再给人惊艳的产品,不再试图改变某个领域,但Think Different的精神犹存。最近在看《Becoming Steve Jobs》这本书,理解了为啥皮克斯讲故事都是那个套路,正如乔布斯一生一样,人生的G点往往不在成功的那一刻,而是反败为胜的转折。下面的链接是我youku中上传的乔布斯重回Apple的珍贵视频,分享给大家
乔布斯回归http://v.youku.com/v_show/id_XMzUwMTUyMjM2.html?spm=a2hzp.8253869.0.0
谢谢支持
下面这个是自学群
记住关注哦
领取专属 10元无门槛券
私享最新 技术干货