一些大家关注的问题
  1.数据脱敏
  从线上直接引导数据至测试集群,鉴于测试集群的参与人员较多,数据安全成为了一个比较重要的问题。虽然同样有权限方面的控制和操作方面的审计监控,但有心人在线上不可能进行的诸如数据补全、对比等执行过程中,总可以绕过防范来抓取到敏感数据。这便是数据脱敏的意义所在,根据原始数据的特点,我们通过随机字符的填充,或者MD5码等方式来加密数据,并在加密过程中加上的seed,来确保数据之间的关联不会因此发生断裂。
  2.缺失的数据
  前文提到数据的时效性,部分作业会在结果报表产生后立即对源头数据进行清理或合并,这导致我们拷贝来用于做业务回归的数据不完整。此外,大部分源头数据在3天或一周后都会进行删除合并操作以提高空间使用效率,而我们的数据快照始终必须是那固定的,当这的数据缺失后,我们通过拷贝新的数据然后改写这些数据的日期来达到补全源头数据的目的,完美的解决了缺失数据的问题。
  3.随机数据的全量对比
  业务线作业的类型是复杂的,其中有一些机器学习算法或者和日期、计数器相关的数据会在每次回归后都出现全量对比不能通过的现象。例如包含几百万条根据生日确定年龄的表中,由于作业运行日期的不同,哪怕只是隔了也会出现其中的365分之一的年龄数据出现变化。因此遇到这种数据,需要采用根据字段特点来进行匹配的方式做全量对比。而对于完全受随机数影响构成的一些数据,则只能忽略进行对比。好在这种随机数据在整体中的占比非常小。
  总结
  终于到了系列文章的尾声,本文作为系列文章的后一弹,不仅是因为其复杂性较高,考验了整个跨机房项目参与人员的组织能力、技术能力以及协同合作的能力,且时间跨度较长,横亘整个云梯跨机房项目开发周期,更因为业务线仿真回归汇集了大量各种各样的不同项目的自动化工具,以及人工的协调参与,可谓自动化与测试工具之集大成者。鸟览云梯跨机房项目始末,无论从宏观角度还是从微观角度来看,业务线仿真回归测试都和整个跨机房项目一样气势恢宏、动人心魄。这是无数测试团队与技术人员之间的一次共舞,是合作与竞争、组织与协调、默契与分歧的一次盛会。置身其中,感受无数技术与思想的碰撞,无数创新与灵感的火花,成为一个里程碑一段历史的见证者,我深感无比的荣幸。谨以此文献给这一段历史,期待在将来诸如登月等大型合作项目中可以再次实践。