shengweima的个人博客分享 http://blog.sciencenet.cn/u/shengweima

博文

提取指定位置的序列 extract fasta sequence by their position

已有 9432 次阅读 2014-11-9 17:12 |系统分类:科研笔记| 小麦, 提取序列

  我们要获得100个基因的启动子序列(ATG上游2k),我知道了这些基因atg的位置。

  我习惯举例子来说明问题,小麦3B染色体序列我们已经有了,fasta格式  ,格式如下:

>3B

CAACCAGAAAATTCTTTGGTAGGCATGAAGGTCTCTGTCACTTGTTCGCCGTTGCTTCAA

ATAATAAAGATCAATTATGCTGATTTTGTTGGGCCTAATACAAACTTGATTTACAAAATA

AATAACATGTAGAAAACAAACCTTGATTGCAATTATAATTTTTTCCTTAAGGTATACATT

GGTGGGAGAAGAAGTCCAACCAGTCATTTTCTCAATGTGATCCAATCAACTTAGCAACAA

TAACGATCCTTGGTTTGACATAATTAATTCCACCACAAGGTTGGTGATGCACCCAACTTC

TGAGCATTGGTGACCTAAACGCACAAGGAGGTTTGCTAGTAAAAACTAAGGAGAGTGCAC

GGTGCAGTTATGATTAAGATCAATAGTGGTAGTTCAGTTTTAACTTTTTGCAATCACAGA

GTCTTCTATTCATCCCGTTGCCTCCTATTACAACAATTTCTTCTATCTTTTGTTCCTCTT

GCATGCTCTACATATTTATACCTAAGTTCAACTATCTCATGAAATACTAAGATGGTGTTG

假如我要获得这条序列的第3-10个碱基,和第11-20个碱基

要提取的序列及位置信息放在1.txt

3B    3    10

3B    11    20

脚本 fastalocation.py

python fastalocation.py 3B.fasta 1.txt > 1.fa


fastalocation.py





https://blog.sciencenet.cn/blog-2030752-842283.html

上一篇:开篇
下一篇:看起来简单,做起来难
收藏 IP: 218.2.227.*| 热度|

1 梁红斌

该博文允许注册用户评论 请点击登录 评论 (1 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-20 03:47

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部