NGS数据的质量评估和reads的处理

作者：网络转载发布时间：[ 2015/2/2 16:20:08 ] 推荐标签：质量管理软件测试管理

　　1. 基因组测序和转录测序的NGS数据处理策略
　　从测序公司拿到数据后，首先需要对数据进行预处理，主要分两步走：
　　1.1 QC(reads的质量控制)
　　Quality Control，即过滤低质量reads，低质量的reads有如下几种：
　　含有Primer/Adaptor的reads
　　含有过多non-ATCG碱基N的reads
　　测序质量较低的碱基数占的比例过高的reads
　　需要将这些reads完全过滤掉，才能用于下一步的分析。
　　1.2 对reads进行trim处理
　　如果进行基因组组装，则不需要进行该步骤。如果是需要进行转录组的分析，则必须要该步骤。
　　本步骤从3′端来对reads进行trim，来控制reads中低质量碱基的比例。直到trim的read长度低于一定的数时，则完全舍弃该read。
　　2. NGS数据的QC软件
　　2.1 NGSQC toolkit
　　该软件的citation:Patel RK， Jain M (2012). NGS QC Toolkit: A toolkit for quality control of next generation sequencing data. PLoS ONE， 7(2): e30619.
　　该软件的官网：http://www.nipgr.res.in/ngsqctoolkit.html
　　该软件解压缩后包括4个文件夹和1个PDF格式的manual文件。manual文件是详细的说明；4个文件夹中都是使用perl编写的用于QC的程序。按其重要程度决定先后，其介绍如下：
　　2.1.1 QC文件夹中包含了4支PERL程序，用于454 READS或ILLUMINA READS的QC，分别为：
　　IlluQC.pl 用于Illumina reads的QC。默认情况下去除掉含有primer/adaptor的reads和低质量的reads，并给出统计结果和6种图形结果。默认设置 (‘-s’ 参数) 碱基质量低于20的为低质量碱基；默认设置 ( ‘-l’ 参数)低质量碱基在reads中比例 >30% 的为低质量reads。程序运行例子：
　　$ perl $NGSQCHome/QC/IlluQC_PRLL.pl -pe r1.fq r2.fq 2 5 -p 8 -l 70 -s 20
　　IlluQC_PRLL.pl 和上一个程序没有多大区别，只是多了 ‘-c’ 参数来进行并行计算，增加程序速度。
　　454QC.pl 对454 reads进行QC。
　　454QC_PRLL.pl 和上一个程序一眼个，只是多了 ‘-c’ 参数来进行并行计算，增加程序速度。
　　454QC_PE.pl 对paired-end测序的454 reads进行QC。
　　2.1.2 TRIMINGREADS文件夹包含3支程序，用于READS的TRIMMING，分别为：
　　AmbiguityFiltering.pl 对含有non-ATCG的reads进行trimming的程序。有4种(4选1)trim方法：允许大non-ATCG数目；允许大的non-ATCG比例(例子如下)；从5′端trim掉含N的序列；从3′端trim掉含N的序列。加上个通用的参数：低于一定长度的reads被cutoff掉。
　　$ perl $NGSQCHome/Trimming/AmbiguityFiltering.pl -i r1.fq -irev r2.fq -p 2 -n 50
　　TrimmingReads.pl 有3种(3选1)trim方法：对所有read从5′端trim掉制定数目的碱基；对所有reads从3′端trim掉指定数目的碱基；从3′端trim掉质量低于指定值的碱基(例子如下）。加上个通用的参数：低于一定长度的reads被cutoff掉。
　　$ perl $NGSQCHome/Trimming/TrimmingReads.pl -i r1.fq -irev r2.fq -q 13 -n 50
　　HomopolymerTrimming.pl
　　2.1.3 STATISTICS文件夹中2支程序，用于进行N50统计等
　　N50Stat.pl 用于统计fasta文件的N50
　　AvgQuality.pl 用于统计454文件的reads质量
　　2.1.4 FORMT-CONVERTER文件夹中程序运用于不同格式文件的转换，其中含有4个PERL程序，分别为：
　　FastqTo454.pl、FastqToFasta.pl、SangerFastqToIlluFastq.pl、SolexaFastqToIlluFastq.pl。