植物分子育种分享 http://blog.sciencenet.cn/u/bioysy 欢迎对分子育种有兴趣的朋友们!

博文

把GFF3文件导入MySQL数据库

已有 7710 次阅读 2015-1-29 10:13 |个人分类:linux|系统分类:科研笔记

      什么是GFF3?这个一种序列注释文件的格式,基因组注释数据常常会用这种格式来记录序列注释信息,关于这种格式的更多信息,可以在这里学习:http://www.sequenceontology.org/gff3.shtml 

      这里简单说下,怎样把GFF3文件导入MySQL数据库,导入了以后使用比较方便。我用的是ubuntu 14.04系统。如果使用其它系统的,仅供参考。系统需要安装MySQL数据库以及bioperl,关于bioperl有兴趣的朋友可以到这里序列(www.bioperl.org),关于perl和MySQL这里也提供点我云盘里的参考资料:http://yunpan.cn/cK3zPydGY6c7Q (提取码:36ad)

      1 在MySQL数据库中建立一个用于储存GFF3格式数据的数据库

mysql> create database MUS_7 -u root -p  XXXXXXXX;

其中create database是MySQL中的命令,MUS_7是新建的数据库名,-u选项,表示用户名,用户名参数为root,-p 参数后接MySQL数据库的密码。这样就能建立一个名为MUS_7的数据库

     2 将GFF3文件导入MySQL数据库中

      从网上下载GFF3格式的文件,如从rice_r7_all_tilling_path.gff3,然后用下列命令导入MySQL数据库

bp_seqfeature_load -f   -c -d MUS_r7 -u root -p xxxxxxxx all.gff3 all.con

bp_seqfeature_load是一个脚本文件,所以系统中需要有这个脚本文件。关于这个脚本的用法可以用命令bp_seqfeature_load查询。-f选项的含义:

       Activate fast loading. (default 0) Only available for some adaptors.

  -c选项的含义:

Create the database and reinitialize it (default false) Note, this

       will erase previous database contents, if any

     如果是新建的数据库需要用这个选项,如果是往已有的数据库中添加数据,用这个选项就坏菜了,把原来数据都清除了

 -d MUS_r7,表示导入的数据库为MUS_r7,-u -p及后面的参数和上文含义相同。all.gff3为GFF3文件。all.com,为和gff3文件对应的参考序列。这个得配套,要不然肯定会报错。

我传的all.gff3文件大小为:78M,all.con文件为:365M。文件比较大,要把这些东西都传上去,得花不少时间,总时间为:63245.07秒,17.5小时。插入后的效果图如下。


    我的MySQL数据库中有三套水稻基因组的注释数据。这三套数据,参考序列都是一样的,但注释数据则不一样,所以对同一个水稻基因组序列,利用这三套数据同时分析,可能得到的信息会更多。当然,这个数据也可以和其它数据,如全基因组的多态信息进行整合,这样使用更加方便



https://blog.sciencenet.cn/blog-479743-863705.html

上一篇:适合分子育种的分子标记体系
下一篇:Nature method 专门介绍Bioconductor的文章
收藏 IP: 221.198.250.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...
扫一扫,分享此博文

全部作者的精选博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-17 12:51

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部