基于边合成边测序(Sequencing By Synthesis,SBS)技术,Illumina HiSeq2500高通量测序平台对cDNA文库进行测序,能够产出大量的高质量Reads,测序平台产出的这些Reads或碱基称为原始数据(Raw Data),其大部分碱基质量打分能达到或超过Q30。Raw Data通常以FASTQ格式提供,每个测序样品的Raw Data包括两个FASTQ文件,分别包含所有cDNA片段两端测定的Reads。
  FASTQ格式文件示意图如下:

  FASTQ格式文件示意图
  注:FASTQ文件中通常每4行对应一个序列单元:第一行以@开头,后面接着序列标识(ID)以及其它可选的描述信息;第二行为碱基序列,即Reads;第三行以“+”开头,后面接着可选的描述信息;第四行为Reads每个碱基对应的质量打分编码,长度必须和Reads的序列长度相同。
  测序碱基质量值
  碱基质量值(Quality Score或Q-score)是碱基识别(Base Calling)出错的概率的整数映射。通常使用的Phred碱基质量值公式为:
  公式中,P为碱基识别出错的概率。下表给出了碱基质量值与碱基识别出错的概率的对应关系:
  表1 碱基质量值与碱基识别出错的概率的对应关系表

  碱基质量值越高表明碱基识别越可靠,碱基测错的可能性越小。比如,对于碱基质量值为Q20的碱基识别,100个碱基中有1个会识别出错;对于碱基质量值为Q30的碱基识别,1,000个碱基中有1个会识别出错;Q40表示10,000个碱基中才有1个会识别出错。
  以测序循环为单位,对单个样品所有Reads平行测序的碱基质量值做分布图,可以查看单个样品各个测序循环及整体的测序质量。

  碱基质量值分布图
  注:横坐标为测序碱基在Reads上的位置,纵坐标为碱基质量值。颜色深浅表示碱基比重,颜色越深,说明该位置测定的碱基中为对应质量值的碱基所占的比重越大,反之亦然。
  测序质量控制
  FASTQ文件中测序Reads需要与指定的参考基因组进行序列比对,定位cDNA片段在基因组或基因上的位置。在序列比对之前,首先需要确保这些Reads有足够高的质量,以保证后续分析的准确。测序质量控制方式如下:
  (1) 去除测序接头以及引物序列;
  (2) 过滤低质量值数据,确保数据质量。
  经过上述一系列的质量控制之后得到的高质量Reads或碱基,称为Clean Data。Clean Data同样以FASTQ格式提供。
  测序数据产出统计
  某项目各样品数据产出统计见下表:
  表2 样品测序数据评估统计表

  注:Samples:样品信息单样品名称;ID:样品编号;Read Number:Clean Data中pair-end Reads(双末端测序)总数;Base Number:Clean Data总碱基数;GC Content:Clean Data GC含量,即Clean Data中G和C两种碱基占总碱基的百分比;%≥Q30:Clean Data质量值大于或等于30的碱基所占的百分比。
  转录组数据与参考基因组序列比对
  获得Clean Reads后,将其与参考基因组进行序列比对,获取在参考基因组或基因上的位置信息,以及测序样品特有的序列特征信息。
  TopHat2是一个高效的序列比对软件。它以高通量Reads比对软件Bowtie为基础,将转录组测序Reads比对到基因组上,然后通过分析比对结果识别外显子之间的剪接点(Splicing Junction)。这不仅为可变剪接分析提供了数据基础,还能够使更多的Reads比对到参考基因组,提高了测序数据的利用率。
  转录组测序数据中,只有比对到参考基因组上的数据才能用于后续分析。因此,将比对到指定的参考基因组上的Reads称为Mapped Reads,对应的数据称为Mapped Data。