云题海 - 专业文章范例文档资料分享平台

当前位置:首页 > FASTA序列文件处理一网打尽

FASTA序列文件处理一网打尽

  • 62 次阅读
  • 3 次下载
  • 2025/7/5 5:31:35

FASTA序列文件处理一网打尽

推荐两个地方:地方一都是小脚本,但实用,大伙也可以自己练习写。地方二成熟软件SeqKit,也很实用。一、小脚本大家可以在这里下载以下脚本:

https://github.com/jorvis/biocode/tree/master/fasta 各脚本作用信息如下:

|-- append_to_fasta_header.py每个序列ID添加后缀|-- check_for_embedded_fasta_headers.py检查此种错误类型fasta序列>gi1006569 DnaA [Vibrio

harveyi]MSSSLWLQCLQQLQEELPATEFSMWVRPLQAEVLHAC>gi409247 DNA repair

proteinMVSLTFKNFKKEKVPLDLEPSNTILETKTKLAQSISCEESQIKLIYSGKVLQDSKTVSECGLKDGDQVVF|-- compare_two_fastas.pl比较两个文件相同序列与不同序列数目|-- convert_fasta_contigs_to_gff3.py将contig序列转换为GFF格式|-- convert_fastq_to_fasta.py将FASTQ转换为FASTA|-- create_fasta_pseudomolecules.pl从遗传图或者Hi-C确定的map信息文件中获得假染色体序列(将contig连成染色体序列)|-- extract_fasta_regions.py提取特定区域的序列|-- fasta_base_content.py碱基含量统计|-- fasta_size_distribution.plGC含量和长度分布统计|--

fasta_size_distribution_plot.py序列长度分布作图|-- fasta_size_report.pl序列长度信息统计|--

filter_fasta_by_header_regex.py使用正则表达式获取FASTA序列|-- filter_fasta_by_ids.pl根据ID提取序列|-- filter_fasta_by_size.pl根据长度过滤序列|--

merge_fasta_files_and_uniquify_ids.py你有多个序列ID相同的文件,想合并一起,保证序列ID唯一性 >CL1Contig1 >CL1Contig2|--

merge_masked_fasta_files.py将不同软件冰壁重复序列结果合并|-- prepend_to_fasta_header.py你有多个序列ID相同的文件,想合并一起,在序列前面添加前缀,保证序列ID唯一性|-- reformat_fasta_residue_lengths.py按照一行固定字符数目重新显示FASTA序列|--

remove_duplicate_sequences.py移除掉重复的序列|-- remove_empty_sequences.pl移除掉文件中空的序列|-- reorient_fasta.pl从某一位置截取序列到另一个文件中|-- reorient_sequences_by_id.py将指定序列反向或者反向互补|-- split_fasta_into_even_files.py分割成指定数目的文件|-- split_interleaved_sequence_file.py将FASTQ/FASTA序列中成对的分成R1,R2两个文件,单独非成对的生成一个文件|-- subsample_fasta.py随机抽取指定数目的FASTA序列|-- validate_fasta.py主要检查以下内容:- ERROR: Entry

with 0-length sequence- ERROR: No > symbols embedded in sequence residues (suggests merged records)- ERROR: Nonzero-length identifier after > symbol until first whitespace- ERROR: Multiple records within an individual file with same identifier- ERROR: Incorrect record count (if --expected_record_count is passed)- ERROR: Make sure the file ends with a blank line (else commonly used tools like cat will cause errors)- WARNING: Residue lines > 60bp- WARNING: Comment lines with # (most parsers will fail to handle this)- WARNING: Homopolymers of length > --homopolymer_limit which are not Ns- WARNING: Internal stops (*) detected in protein FASTA (if --check_internal_stops is passed)`--

write_fasta_from_gff.pl从GFF提取CDS和蛋白序列 二、SeqKit

处理FASTA和FASTQ的神器,window\\linux系统版本都有.对于没有编程基础的小伙伴们,我们照样可以轻松操作序列文件。该软件功能强大,小编只罗列部分模块功能,更详细功能参见软件网站:

http://bioinf.shenwei.me/seqkit/usage/。 一、序列操作。 seqkit seq [flags] file

参数: -p, --complement 取互补序列 --dna2rna DNA to RNA -l,

--lower-case 将序列以小写字母形式输出 -g, --remove-gaps 移除组装序列中的gap -r,

--reverse 取反向序列 --rna2dna RNA to DNA -u, --upper-case 将序列以大写字母形式输出-w, --line-width int 以每行指定长度输出序列 (0 for no wrap) (default 60)举例:seqkit seq test.fa -w 0#将此文件fasta序列转换成一行输出seqkit seq -w 100 test.fa#将此文件fasta序列转换成100个碱基一行输出seqkit seq --dna2rna test.fa#将此文件fasta序列dna转换成rnaseqkit seq -w 100 -p -r test.fa#将此文件fasta序列反向互补输出,每行100碱基二、Fasta/q之间及与tab格式互换1、FASTQ转换成FASTA: seqkit fq2fa 举例:seqkit fq2fa reads_1.fq -o reads_1.fa2、FASTA/FASTQ转换成tab格式。seqkit fx2tab举例:seqkit fx2tab test.fa>test.fa.tab.faseqkit fx2tab

test.fq>test.fq.tab.fqtab格式:ID sequence三、序列信息统计1、序列碱基含量及序列长度信息统计 seqkit fx2tab [flags]参数: -B, --base-content value 要输出的碱基含量e.g. -B AT -B N -g, --gc print GC content -l, --length print sequence length

搜索更多关于: FASTA序列文件处理一网打尽 的文档
  • 收藏
  • 违规举报
  • 版权认领
下载文档10.00 元 加入VIP免费下载
推荐下载
本文作者:...

共分享92篇相关文档

文档简介:

FASTA序列文件处理一网打尽 推荐两个地方:地方一都是小脚本,但实用,大伙也可以自己练习写。地方二成熟软件SeqKit,也很实用。一、小脚本大家可以在这里下载以下脚本:https://github.com/jorvis/biocode/tree/master/fasta 各脚本作用信息如下: |-- append_to_fasta_header.py每个序列ID添加后缀|-- check_for_embedded_fasta_headers.py检查此种错误类型fasta序列>gi1006569 DnaA [Vibrio harveyi]MSSSLWLQCLQQLQEELPATEFSMWVRPLQAEVLHAC>gi409247 DNA repair proteinMVSLTFKNFKKE

× 游客快捷下载通道(下载后可以自由复制和排版)
单篇付费下载
限时特价:10 元/份 原价:20元
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219
Copyright © 云题海 All Rights Reserved. 苏ICP备16052595号-3 网站地图 客服QQ:370150219 邮箱:370150219@qq.com