测序数据质量控制

作者：网络转载发布时间：[ 2016/1/13 14:29:09 ] 推荐标签：质量管理软件测试管理

　　基于边合成边测序（Sequencing By Synthesis，SBS）技术，Illumina HiSeq2500高通量测序平台对cDNA文库进行测序，能够产出大量的高质量Reads，测序平台产出的这些Reads或碱基称为原始数据（Raw Data），其大部分碱基质量打分能达到或超过Q30。Raw Data通常以FASTQ格式提供，每个测序样品的Raw Data包括两个FASTQ文件，分别包含所有cDNA片段两端测定的Reads。
　　FASTQ格式文件示意图如下：

　　FASTQ格式文件示意图
　　注：FASTQ文件中通常每4行对应一个序列单元：第一行以@开头，后面接着序列标识（ID）以及其它可选的描述信息；第二行为碱基序列，即Reads；第三行以“+”开头，后面接着可选的描述信息；第四行为Reads每个碱基对应的质量打分编码，长度必须和Reads的序列长度相同。
　　测序碱基质量值
　　碱基质量值（Quality Score或Q-score）是碱基识别（Base Calling）出错的概率的整数映射。通常使用的Phred碱基质量值公式为：
　　公式中，P为碱基识别出错的概率。下表给出了碱基质量值与碱基识别出错的概率的对应关系：
　　表1 碱基质量值与碱基识别出错的概率的对应关系表

　　碱基质量值越高表明碱基识别越可靠，碱基测错的可能性越小。比如，对于碱基质量值为Q20的碱基识别，100个碱基中有1个会识别出错；对于碱基质量值为Q30的碱基识别，1，000个碱基中有1个会识别出错；Q40表示10，000个碱基中才有1个会识别出错。
　　以测序循环为单位，对单个样品所有Reads平行测序的碱基质量值做分布图，可以查看单个样品各个测序循环及整体的测序质量。

　　碱基质量值分布图
　　注：横坐标为测序碱基在Reads上的位置，纵坐标为碱基质量值。颜色深浅表示碱基比重，颜色越深，说明该位置测定的碱基中为对应质量值的碱基所占的比重越大，反之亦然。
　　测序质量控制
　　FASTQ文件中测序Reads需要与指定的参考基因组进行序列比对，定位cDNA片段在基因组或基因上的位置。在序列比对之前，首先需要确保这些Reads有足够高的质量，以保证后续分析的准确。测序质量控制方式如下：
　　(1) 去除测序接头以及引物序列；
　　(2) 过滤低质量值数据，确保数据质量。
　　经过上述一系列的质量控制之后得到的高质量Reads或碱基，称为Clean Data。Clean Data同样以FASTQ格式提供。
　　测序数据产出统计
　　某项目各样品数据产出统计见下表：
　　表2 样品测序数据评估统计表

　　注：Samples：样品信息单样品名称；ID：样品编号；Read Number：Clean Data中pair-end Reads（双末端测序）总数；Base Number：Clean Data总碱基数；GC Content：Clean Data GC含量，即Clean Data中G和C两种碱基占总碱基的百分比；%≥Q30：Clean Data质量值大于或等于30的碱基所占的百分比。
　　转录组数据与参考基因组序列比对
　　获得Clean Reads后，将其与参考基因组进行序列比对，获取在参考基因组或基因上的位置信息，以及测序样品特有的序列特征信息。
　　TopHat2是一个高效的序列比对软件。它以高通量Reads比对软件Bowtie为基础，将转录组测序Reads比对到基因组上，然后通过分析比对结果识别外显子之间的剪接点（Splicing Junction）。这不仅为可变剪接分析提供了数据基础，还能够使更多的Reads比对到参考基因组，提高了测序数据的利用率。
　　转录组测序数据中，只有比对到参考基因组上的数据才能用于后续分析。因此，将比对到指定的参考基因组上的Reads称为Mapped Reads，对应的数据称为Mapped Data。

本文内容不用于商业目的，如涉及知识产权问题，请权利人联系SPASVO小编(021-61079698-8054)，我们将立即处理，马上删除。