比对效率统计
  比对效率指Mapped Reads占Clean Reads的百分比,是转录组数据利用率的直接体现。比对效率除了受数据测序质量影响外,还与指定的参考基因组组装的优劣、参考基因组与测序样品的生物学分类关系远近(亚种)有关。因此,通过比对效率,可以评估所选参考基因组组装是否能满足信息分析的需求,及后期数据分析的可靠性。
  各样品测序数据与所选参考基因组的序列比对结果统计见下表:
  表3 Clean Data与参考基因组比对结果统计表

  注:ID:样品编号;Total Reads:Clean Reads数目,按单端计;Mapped Reads:比对到参考基因组上的Reads数目;Mapped Ratio:比对到参考基因组上的Reads在Clean Reads中占的百分比;Uniq Mapped Reads:比对到参考基因组位置的Reads数目;Uniq Mapped Ratio:比对到参考基因组位置的Reads在Clean Reads中占的百分比。
  比对结果作图
  将比对到不同染色体上Reads进行位置分布统计,绘制Mapped Reads在所选参考基因组上的覆盖深度分布图。
  样品T01的Mapped Reads在参考基因组部分染色体上的覆盖深度分布图如下:

  Mapped Reads在参考基因组上的位置及覆盖深度分布图
  注:横坐标为染色体位置;纵坐标为覆盖深度以2为底的对数值,以10kb作为区间单位长度,划分染色体成多个小窗口(Window),统计落在各个窗口内的Mapped Reads作为其覆盖深度。
  理论上,来自成熟mRNA的Reads应该比对到外显子区。但是,由于以下原因一部分Reads会比对到内含子区和基因间区:
  (1) 样品提取时将含有Ploy(A)尾而内含子没有切除完全的mRNA(即mRNA前体)提出,使得来自内含子片段的Reads比对到了内含子区;
  (2) 基因组注释错误,原来为外显子的区域注释成了内含子区,或者相反;
  (3) 基因组注释水平低,对于使用转录组测序数据进行的基因组注释,由于转录组测序不能遍历所有的时间和空间点,使得用于注释的转录组测序数据中不表达或低表达的基因刚好在该项目的样品中检测到较高丰度时,来自这类基因的Reads比对到了被注释的基因间区,这也是新基因和新转录本发掘的基础之一;
  (4) 测序样品与参考基因组存在差异,比如测序样品中突变形成新的转录组起始位点形成样品特有的新基因,或者剪接位点差异形成新的转录本,这也是新转录本发掘的基础之一。
  统计Mapped Reads在指定的参考基因组不同区域(外显子、内含子和基因间区)的数目,绘制基因组不同区域上各样品Mapped Reads的分布直方图,如下:

  基因组不同区域Reads分布直方图
  注:图中每个直方柱表示一个样品,粉色区域为外显子区、绿色区域为基因间区、蓝色区域为内含子区,区域的高度表示比对到该区域的Mapped Reads在所有Mapped Reads中所占的百分比。