如何严谨地做性能测试
  一般来说,性能测试要统一考虑这么几个因素: Thoughput吞吐量 , Latency响应时间 , 资源利用 (CPU/MEM/IO/Bandwidth…), 成功率 , 系统稳定性 。
  下面的这些性能测试的方式基本上来源自我的老老东家汤森路透,一家做real-time的金融数据系统的公司。
  一,你得定义一个系统的响应时间latency,建议是TP99,以及成功率。比如路透的定义:99.9%的响应时间必需在1ms之内,平均响应时间在1ms以内,的请求成功。
  二,在这个响应时间的限制下,找到高的吞吐量。测试用的数据,需要有大中小各种尺寸的数据,并可以混合。好使用生产线上的测试数据。
  三,在这个吞吐量做Soak Test,比如:使用第二步测试得到的吞吐量连续7天的不间断的压测系统。然后收集CPU,内存,硬盘/网络IO,等指标,查看系统是否稳定,比如,CPU是平稳的,内存使用也是平稳的。那么,这个值是系统的性能
  四,找到系统的极限值。比如:在成功率的情况下(不考虑响应时间的长短),系统能坚持10分钟的吞吐量。
  五,做Burst Test。用第二步得到的吞吐量执行5分钟,然后在第四步得到的极限值执行1分钟,再回到第二步的吞吐量执行5钟,再到第四步的权限值执行1分钟,如此往复个一段时间,比如2天。收集系统数据:CPU、内存、硬盘/网络IO等,观察他们的曲线,以及相应的响应时间,确保系统是稳定的。
  (注:在路透,路透会用第二步得到的吞吐量乘以66.7%来做为系统的软报警线,80%做为系统的硬报警线,而极限值仅仅用来扛突发的peak)
  是不是很烦锁?是的,只因为,这是工程,工程是一门科学,科学是严谨的。
  欢迎大家也分享一下你们性能测试的经验和方法。