tanklao的个人博客分享 http://blog.sciencenet.cn/u/tanklao

博文

如何用perl处理测序文件

已有 4263 次阅读 2012-11-7 04:11 |个人分类:生物信息学|系统分类:科研笔记| DNA测序, perl入门, perl实用技术, 序列分析, 测序文件

这是一段菜鸟级别的perl代码,即使你完全没有学过perl,看完本帖之后,你肯定可以用它来解决实际问题。

在做了大量的测序之后,测序公司给你的可能只是一个又一个的序列文件,而且在大多数情况下这些序列文件的文件名还含有测序公司的一些信息,而这些信息对你来说毫无用处。那么如何才能把有用的信息抽提出来,如何才能把这些测序文件快速地转变成一个fasta文件呢?这正是我攥写本帖所要解决的问题。

我结合一个具体的例子来分享一下我用perl来处理测序文件的方法。测序公司发送给我的文件的如下:
L0408022_taG6_PEGFP-N.txt
L0408022_taG7_PEGFP-N.txt
L0408023_taG8_PEGFP-N.txt
L0408023_taG9_PEGFP-N.txt
L0408025_taY1_PEGFP-N.txt
L0408025_taY2_PEGFP-N.txt

本例字中的所有文件均在附件上,有兴趣的战友可以下载下来自己操作一遍。

我希望得到的结果是:
>taG6
GCTCCTCGCCCTTGCTCACCATGGATCCCGGGCCCGCGGTACCAACTATTGTTTGGTTCCATCATAAAGGATATAAAACTGACTCGACCAATTTTAACAGAGTGTCTGTTAGAATGTATCTGATTGGTCTGAGTAATTTTCGAATCACAAACAGTTCAGGCACAAGGTGCAGGGTACTTGAGAAGCAAGGAACACAGAATACAATCCAGACAGACTCTACCCACTAAAAATCCAGACTGCACAGGTAGCAATCTGTTCAGAGAAGGAATCAAGAAGCGTAACGAAAGAATGTTGCAAGATCTCCGTAGTATTCGGATGAATCGAAATCTAGAACCAGATGTGCGCTGTGTTTGAACTTTGATGCAACTGATGCTACAAACTTTGCTGCTTCATGTTCATTGAAAAACAGGTCAGCTTTCGCTAACATTACAACTTAGATGTTACTGAAGATCATTTTTTTTTCTCATAGAAGAATAGAAGAAGCTTAACCTCATTGATGCCTTTTATGAGCAAAATCCAAATCATTTCACCAGACACATTTCCCATAAAGATTGTTTCTGTTTTAGCTTTTGGTTATCAAAATTCGAAATTTTACCACATCAGTATCACCACCTTCTGAAAAGTTTCCATTCAGTTTTTTTCTTGAAAAGTACGAAAACTAGTTTTTGTTCTTACGTTTGCATTATGAAAATAGCAAAAGGTTAATCAATTTGTATTATTAAACAACTCTATAAATTTGAAAATCAAAATGTTATTTTCAAAATTGTCTAAACTTCAACCGTTCAAAATCTAATAAATAGATTGCCACATAATTTCTCTTTTTAGTAGTATATATCATGTGGCTCATGTCTATGCTATCACAAGTAGACAATTGTTTTCTGAGATATTTTCTTTGTAATTGTTAAACCAAGATATGTCATCATCATCTTTCTATTTTTAGTTTGGTCAACTTGTGTTTCTTTCCTTCTATCATTTTGTGATTTACATGCATATTCATGTATACAATCGTGTATCACATGTGTTAATGTGTATATTATAAAATATATATAGCGATAGATACATTTTCTTTAGATATAAAAAAGTTAATACTTTCTTATTTTACATGTCTATGGAATTTGTCAGTCATTATAGCTGCATGCTATTCCACGAATTACTTCTATTGGTGAACATACATACCCTTCTCTACCACTTTTACTGTCTAAAATCCACAGATTGCCCCTAATGTCCAAACATTTCTAGG
>taG7
GCTCCTCGCCCTTGCTCACCATGGATCCCGGGCCCGCGGTACCAACTATTGTTTGGTTCCATCATAAAGGATATAAAACTGACTCGACCAATTTTAACAGAGTGTCTGTTAGAATGTATCTGATTGGTCTGAGTAATTTTCGAATCACAAACAGTTCAGGCACAAGGTGCAGGGTACTTGAGAAGCAAGGAACACAGAATACAATCCAGACAGACTCTACCCACTAAAAATCCAGACTGCACAGGTAGCAATCTGTTCAGAGAAGGAATCAAGAAGCGTAACGAAAGAATGTTGCAAGATCTCCGTAGTATTCGGATGAATCGAAATCTAGAACCAGATGTGCGCTGTGTTTGAACTTTGATGCAACTGATGCTACAAACTTTGCTGCTTCATGTTCATTGAAAAACAGGTCAGCTTTCGCTAACATTACAACTTAGATGTTACTGAAGATCATTTTTTTTTCTCATAGAAGAATAGAAGAAGCTTAACCTCATTGATGCCTTTTATGAGCAAAATCCAAATCATTTCACCAGACACATTTCCCATAAAGATTGTTTCTGTTTTAGCTTTTGGTTATCAAAATTCGAAATTTTACCACATCAGTATCACCACCTTCTGAAAAGTTTCCATTCAGTTTTTTTCTTGAAAAGTACGAAAACTAGTTTTTGTTCTTACGTTTGCATTATGAAAATAGCAAAAGGTTAATCAATTTGTATTATTAAACAACTCTATAAATTTGAAAATCAAAATGTTATTTTCAAAATTGTCTAAACTTCAACCGTTCAAAATCTAATAAATAGATTGCCACATAATTTCTCTTTTTAGTAGTATATATCATGTGGCTCATGTCTATGCTATCACAAGTAGACAATTGTTTTCTGAGATATTTTCTTTGTAATTGTTAAACCAAGATATGTCATCATCATCTTTCTATTTTTAGTTTGGTCAACTTGTGTTTCTTTCCTTCTATCATTTTGTGATTTACATGCATATTCATGTATACAATCGTGTATCACATGTGTTAATGTGTATATTATAAAATATATATAGCGATAGATACATTTTCTTTAGATATAAAAAAGTTAATACTTTCTTATTTTACATGTCTATGGAATTTGTCAGTCATTATAGCTGCATGCTATTCCACGAATTACTTCTATTGGTGAACATACATACCCTTCTCTACCACTTTTACTGTCTAAAATCCACAGATTGCCCCTAATGTCCAAACATTTCTAGG
>taG8
GCTCCTCGCCCTTGCTCACCATGGATCCCGGGCCCGCGGTACCAACTATTGTTTGGTTCCATCATAAAGGATATAAAACTGACTCGACCAATTTTAACAGAGTGTCTGTTAGAATGTATCTGATTGGTCTGAGTAATTTTCGAATCACAAACAGTTCAGGCACAAGGTGCAGGGTACTTGAGAAGCAAGGAACACAGAATACAATCCAGACAGACTCTACCCACTAAAAATCCAGACTGCACAGGTAGCAATCTGTTCAGAGAAGGAATCAAGAAGCGTAACGAAAGAATGTTGCAAGATCTCCGTAGTATTCGGATGAATCGAAATCTAGAACCAGATGTGCGCTGTGTTTGAACTTTGATGCAACTGATGCTACAAACTTTGCTGCTTCATGTTCATTGAAAAACAGGTCAGCTTTCGCTAACATTACAACTTAGATGTTACTGAAGATCATTTTTTTTTCTCATAGAAGAATAGAAGAAGCTTAACCTCATTGATGCCTTTTATGAGCAAAATCCAAATCATTTCACCAGACACATTTCCCATAAAGATTGTTTCTGTTTTAGCTTTTGGTTATCAAAATTCGAAATTTTACCACATCAGTATCACCACCTTCTGAAAAGTTTCCATTCAGTTTTTTTCTTGAAAAGTACGAAAACTAGTTTTTGTTCTTACGTTTGCATTATGAAAATAGCAAAAGGTTAATCAATTTGTATTATTAAACAACTCTATAAATTTGAAAATCAAAATGTTATTTTCAAAATTGTCTAAACTTCAACCGTTCAAAATCTAATAAATAGATTGCCACATAATTTCTCTTTTTAGTAGTATATATCATGTGGCTCATGTCTATGCTATCACAAGTAGACAATTGTTTTCTGAGATATTTTCTTTGTAATTGTTAAACCAAGATATGTCATCATCATCTTTCTATTTTTAGTTTGGTCAACTTGTGTTTCTTTCCTTCTAATCATTTTTGTGATTTACATGCATATTCATGTAAACAATCGTGTATTCACATTGGTTATGTGTATATTATAAAATATATAATAGCGGTATAGATACATTTCTTTAAGATATAAAAAAAGTTATACTTTCTTATTTTTCATGCCTTGGAAATGGTCCAAATGTCATTTATAGCTGCATTGCTATTTCTACGATTCCTCTATGGGAACAACCAATTACATTTCTTCTCCACTTTTTCTGTATAAATCCACGAGATTTCTCTCCTCTAGTGCAGGAGACAAGAC
>taG9
GCTCCTCGCCCTTGCTCACCATGGATCCCGGGCCCGCGGTACCAACTATTGTTTGGTTCCATCATAAAGGATATAAAACTGACTCGACCAATTTTAACAGAGTGTCTGTTAGAATGTATCTGATTGGTCTGAGTAATTTTCGAATCACAAACAGTTCAGGCACAAGGTGCAGGGTACTTGAGAAGCAAGGAACACAGAATACAATCCAGACAGACTCTACCCACTAAAAATCCAGACTGCACAGGTAGCAATCTGTTCAGAGAAGGAATCAAGAAGCGTAACGAAAGAATGTTGCAAGATCTCCGTAGTATTCGGATGAATCGAAATCTAGAACCAGATGTGCGCTGTGTTTGAACTTTGATGCAACTGATGCTACAAACTTTGCTGCTTCATGTTCATTGAAAAACAGGTCAGCTTTCGCTAACATTACAACTTAGATGTTACTGAAGATCATTTTTTTTTCTCATAGAAGAATAGAAGAAGCTTAACCTCATTGATGCCTTTTATGAGCAAAATCCAAATCATTTCACCAGACACATTTCCCATAAAGATTGTTTCTGTTTTAGCTTTTGGTTATCAAAATTCGAAATTTTACCACATCAGTATCACCACCTTCTGAAAAGTTTCCATTCAGTTTTTTTCTTGAAAAGTACGAAAACTAGTTTTTGTTCTTACGTTTGCATTATGAAAATAGCAAAAGGTTAATCAATTTGTATTATTAAACAACTCTATAAATTTGAAAATCAAAATGTTATTTTCAAAATTGTCTAAACTTCAACCGTTCAAAATCTAATAAATAGATTGCCACATAATTTCTCTTTTTAGTAGTATATATCATGTGGCTCATGTCTATGCTATCACAAGTAGACAATTGTTTTCTGAGATATTTTCTTTGTAATTGTTAAACCAAGATATGTCATCATCATCTTTCTATTTTTAGTTTGGTCAACTTGTGTTTCTTTCCTTCTAATCATTTTTGTGATTTACATGCATATTCATGTAAACAATCGTGTATTCACATTGGTTATGTGTATATTATAAAATATATAATAGCGGTATAGATACATTTCTTTAAGATATAAAAAAAGTTATACTTTCTTATTTTTCATGCCTTGGAAATGGTCCAAATGTCATTTATAGCTGCATTGCTATTTCTACGATTCCTCTATGGGAACAACCAATTACATTTCTTCTCCACTTTTTCTGTATAAATCCACGAGATTTCTCTCCTCTAGTGCAGGAGACAAGAC
>taY1
GCTCCTCGCCCTTGCTCACCATGGATCCCGGGCCCGCGGTACCAACTATTGTTTGGTTCCATCATAAAGGATATAAAACTGACTCGACCAATTTTAACAGAGTGTCTGTTAGAATGTATCTGATTGGTCTGAGTAATTTTCGAATCACAAACAGTTCAGGCACAAGGTGCAGGGTACTTGAGAAGCAAGGAACACAGAATACAATCCAGACAGACTCTACCCACTAAAAATCCAGACTGCACAGGTAGCAATCTGTTCAGAGAAGGAATCAAGAAGCGTAACGAAAGAATGTTGCAAGATCTCCGTAGTATTCGGATGAATCGAAATCTAGAACCAGATGTGCGCTGTGTTTGAACTTTGATGCAACTGATGCTACAAACTTTGCTGCTTCATGTTCATTGAAAAACAGGTCAGCTTTCGCTAACATTACAACTTAGATGTTACTGAAGATCATTTTTTTTTCTCATAGAAGAATAGAAGAAGCTTAACCTCATTGATGCCTTTTATGAGCAAAATCCAAATCATTTCACCAGACACATTTCCCATAAAGATTGTTTCTGTTTTAGCTTTTGGTTATCAAAATTCGAAATTTTACCACATCAGTATCACCACCTTCTGAAAAGTTTCCATTCAGTTTTTTTCTTGAAAAGTACGAAAACTAGTTTTTGTTCTTACGTTTGCATTATGAAAATAGCAAAAGGTTAATCAATTTGTATTATTAAACAACTCTATAAATTTGAAAATCAAAATGTTATTTTCAAAATTGTCTAAACTTCAACCGTTCAAAATCTAATAAATAGATTGCCACATAATTTCTCTTTTTAGTAGTATATATCATGTGGCTCATGTCTATGCTATCACAAGTAGACAATTGTTTTCTGAGATATTTTCTTTGTAATTGTTAAACCAAGATATGTCATCATCATCTTTCTATTTTAGTTTGGTCAACTTGTGTTTCTTTTCTCTATCATTTTTGTGATTTACATGCATATTCATGTATACAATCGTGTATTCACATGTGTATGTGTATATTATAAAATATATAATAGCGTATAGAAACATTTCTTTAGGATATAAAAAAGTTATATACTTTTCTTATTTTCATGTCTATGTAATTGGTCAAGGTCAGTTTATAGCTTGCATTTGCTAATTCCACGGATTACTTTATTTGTGGACATACCAATAAACAT
>taY2
GCTCCTCGCCCTTGCTCACCATGGATCCCGGGCCCGCGGTACCAACTATTGTTTGGTTCCATCATAAAGGATATAAAACTGACTCGACCAATTTTAACAGAGTGTCTGTTAGAATGTATCTGATTGGTCTGAGTAATTTTCGAATCACAAACAGTTCAGGCACAAGGTGCAGGGTACTTGAGAAGCAAGGAACACAGAATACAATCCAGACAGACTCTACCCACTAAAAATCCAGACTGCACAGGTAGCAATCTGTTCAGAGAAGGAATCAAGAAGCGTAACGAAAGAATGTTGCAAGATCTCCGTAGTATTCGGATGAATCGAAATCTAGAACCAGATGTGCGCTGTGTTTGAACTTTGATGCAACTGATGCTACAAACTTTGCTGCTTCATGTTCATTGAAAAACAGGTCAGCTTTCGCTAACATTACAACTTAGATGTTACTGAAGATCATTTTTTTTTCTCATAGAAGAATAGAAGAAGCTTAACCTCATTGATGCCTTTTATGAGCAAAATCCAAATCATTTCACCAGACACATTTCCCATAAAGATTGTTTCTGTTTTAGCTTTTGGTTATCAAAATTCGAAATTTTACCACATCAGTATCACCACCTTCTGAAAAGTTTCCATTCAGTTTTTTTCTTGAAAAGTACGAAAACTAGTTTTTGTTCTTACGTTTGCATTATGAAAATAGCAAAAGGTTAATCAATTTGTATTATTAAACAACTCTATAAATTTGAAAATCAAAATGTTATTTTCAAAATTGTCTAAACTTCAACCGTTCAAAATCTAATAAATAGATTGCCACATAATTTCTCTTTTTAGTAGTATATATCATGTGGCTCATGTCTATGCTATCACAAGTAGACAATTGTTTTCTGAGATATTTTCTTTGTAATTGTTAAACCAAGATATGTCATCATCATCTTTCTATTTTAGTTTGGTCAACTTGTGTTTCTTTTCTCTATCATTTTTGTGATTTACATGCATATTCATGTATACAATCGTGTATTCACATGTGTATGTGTATATTATAAAATATATAATAGCGTATAGAAACATTTCTTTAGGATATAAAAAAGTTATATACTTTTCTTATTTTCATGTCTATGTAATTGGTCAAGGTCAGTTTATAGCTTGCATTTGCTAATTCCACGGATTACTTTATTTGTGGACATACCAATAAACAT


那么如何快速实现?你先下载我的附件按照我的指示一步一步地操作就可以了:

1,安装perl,在windows下,去下载activePerl直接安装就可以。大多数的linux好像都安装了perl。这一步可以省略。如果没装请自己解决,linux用户解决这一点小问题一定是没有问题的,就不多说什么了。

2,解压附件,到你的文件夹。

3,运行tyhy2fasta.pl脚本文件。Window用户直接双击就可以了,linux用户在终端中运行[code]perl tyhy2fasta.pl[/code] 

4,运行完之后你可以看到有一个名字为seqconversed.seq的文件,打开看看。

里面的fasta格式的序列这是我们想要的结果。

接下来要实战性地解决你的测序文件问题。用文本编辑器打开tyhy2fasta.pl文件,你可以看到以下代码:


接下来我来解释一下每一行代码的意思,以及如何修改代码使之为你工作。


只要仔细认真地去看看我的注释,你会发现perl原来如此简单和如此亲近……

Tag: perl入门,perl实用技术,dna测序,序列分析,测序文件,转换fasta格式

原文首发丁香园:http://www.dxy.cn/bbs/topic/14484479
柳城的博客帮我转载并编辑了一下,阅读效果最好:http://liucheng.name/477/

由于科学网博客不支持程序代码的发布我只好推荐读者到别人的博客看我的博文了。哈哈。



https://blog.sciencenet.cn/blog-53145-629963.html

上一篇:你好,科学
下一篇:TCID50的计算
收藏 IP: 134.68.58.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-5-20 07:07

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部