tiezhengyuan的个人博客分享 http://blog.sciencenet.cn/u/tiezhengyuan

博文

基因组学研究的数据分析之四:数据下载和文件备份

已有 5021 次阅读 2012-9-1 01:08 |系统分类:科研笔记| 基因组, normal, office, xml, 下载

 “如何建立基因组学研究的数据分析平台?”之  数据下载和文件备份

下载数据

    下面例子是从NCBIFTP站点中下载人类基因组数据,并保存到/data目录下,-r表示递归下载,-k表示使用相对路径,-c表示断点续传
# cd /data
# sudo wget -r -k -c ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/

 

常见公开数据库的FTP站点:

        ftp://ftp.ncbi.nih.gov/

        ftp://ftp.expasy.org/

        ftp://ftp.ebi.ac.uk/

        ftp://ftp.geneontology.org/

        ftp://ftp.genome.jp/pub/kegg/

 

文件打包和压缩 1.2.1.     使用.gz格式压缩文件

#gzip /home/yuan/a         将目录/home/yuan下的文件a压缩,文件a会变成压缩文件a.gz

#gunzip /home/yuan/a.gz    将目录/home/yuan下的压缩文件a.gz解压缩,压缩文件a.gz会变成文件a

1.2.2.     使用.bz2格式压缩文件

#bzip2 /home/yuan/a       将目录/home/yuan下的文件a压缩,文件a会变成压缩文件a.bz2

#bunzip2 /home/yuan/a.bz2   将目录/home/yuan下的压缩文件a.bz2解压缩,压缩文件a.bz2会变成文件a

1.2.3.     使用tar.gztar.bz2格式打包并压缩文件夹(多个文件)

    文件夹和多文件必须先使用tar命令打包然后才能压缩,tar表示打包,gzbz2表示压缩格式,参数:-x 表示是解包 -c 表示打包,-v 表示显示过程信息,-z 表示指定压缩格式为gzip-j 表示指定压缩格式为bz2-f 接文件名或者目录表示要解包或者打包的文件或者目录,举例如下:

# tar -zcvpf /home/yuan/usr_local.tar.gz /usr/local    对目录/usr/local打包并压缩保存到目录/home/yuan下,文件名usr_local.tar.gz

# tar -zxvf /home/yuan/download/a.tar.gz      /home/yuan/download/目录下的a.tar.gz解包并解压缩到当前目录。

# tar -jxvf /home/yuan/download/a.tar.bz2    /home/yuan/download/目录下的a.tar.bz2解包并解压缩到当前目录。

1.2.4.     一次对多个文件解压缩:

    从公开数据库下载的数据常常是压缩文件,以基因组数据为例,如果基因组比较小(例如酿酒酵母),所有染色体的序列文件(.asn, .faa, .fnn, .frn, .gbk, .gff, .ptt, .rnt, .rpt, .val)保存在一个目录下,而且没有压缩,但是高等真核生物的基因组比较复杂,以人类基因组为例,序列文件根据染色体存放在不同目录下,压缩的序列信息分别保存在目录CHR_01-CHR22, CHR_X, CHR_Y里面,使用gunzip命令配合使用通配符一次对多个文件解压缩:

   #sudo gunzip -c /data/ftp.ncbi.nih.gov/genomes/H_sapiens/CHR_*/*.gz

 

系统备份策略

    可能我们缺少必要的硬件条件,并不意味着可以忽略数据备份,特别注意数据备份!!!如下建议:

l       一种比较廉价的方式是将数据备份(使用tar命令打包压缩)到一个移动硬盘上(最好3.5"大硬盘),同时将数据刻录到DVD光盘上。

l       每月或根据情况备份如下目录:你的工作目录、你的数据目录、/download/etc/boot/root/var/usr/local/

l       每天或根据情况备份如下目录:你的工作目录和/var/lib/mysql(数据库)



https://blog.sciencenet.cn/blog-753445-607972.html

上一篇:基因组学研究的数据分析之三:MySQL数据库
下一篇:基因组学研究的数据分析之五:Perl编程之数据排序
收藏 IP: 141.106.128.*| 热度|

1 黄智生

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的精选博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-19 03:58

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部