大数据时代,我们应该具有怎样的思维方式?
作者:网络转载 发布时间:[ 2016/3/16 10:09:00 ] 推荐标签:软件测试 大数据
《飘》、《汤姆叔叔的小屋》之类的小说和故事在全社会激起的是强烈的“情感”共鸣,和故事相比,数据没有情节,它仅代表客观事实,数据激发的,更多的是理性思考。
作为理性的人类,我们不会仅仅满足于感情的宣泄,而是希望通过数据掌握更多的事实,进行理性思考。
在当今时代,不缺乏的是信息。信息消费了什么,这是很明显的:它消费的是信息接受者的注意力。信息越丰富,会导致注意力越匮乏……
当今,信息并不匮乏,匮乏的是我们处理信息的能力,我们有限的注意力是组织活动的主要瓶颈。卡内基梅隆大学的赫伯特·西蒙指出,人类的理性是有限的,因此所有的决策都是基于有限理性的结果。他继而提出,如果能利用存储在计算机里的信息——即数据来辅助决策,人类理性的范围将会扩大,决策的质量能提高。
在大数据时代,人类社会面临的问题之一是如何更好的利用数据来辅助决策。
对小数据而言,基本重要的要求是减少错误,保证质量。因为收集的信息量比较少,所以我们必须确保记下来的数据尽量精确。
无论是确定天体的位置还是观测显微镜下物体的大小,为了使结果更加准确,很多科学家都致力于优化测量的工具。在采样的时候,对精确度的要求更苛刻了。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。
然而,在不断涌现的新情况里,允许不精确性的出现已经成为一个新的亮点,而非缺点。因为放松了容错的标准,人们掌握的数据也多了起来,还可以利用这些数据做更多新的事情。这样不是大量数据优于少量数据那么简单了,而是大量数据创造了更好的结果。
谷歌的翻译更好并不是因为它拥有一个更好的算法机制,是因为谷歌翻译增加了各种各样的数据。2006年,谷歌发布的上万亿的语料库,是来自于互联网的一些废弃内容。
谷歌将其作为“训练集”,可以正确地推算出英语词汇搭配在一起的可能性。谷歌的这个语料库是一个质的突破,使用庞大的数据库使得自然语言处理这一方向取得了飞跃式的发展。
同时,我们需要与各种各样的混乱做斗争。混乱,简单的说是随着数据量的增加,错误率也会相应增加。所以,如果采集的数据量增加1000倍的话,其中采集的部分数据可能是错误的,而且随着数据量的增加,错误率可能也会继续增加。
在整合来源不同的各类信息的时候,因为他们通常不完全一致,所以也会加大混乱程度。虽然如果我们能够下足够多的功夫,这些错误是可以避免的,但在很多情况下,与致力于避免错误相比,对错误的包容会带给我们更多好处。
如果将传统的思维模式——精确性运用于数据化、网络化的21世纪,会错过重要的信息,执迷于精确性是信息缺乏时代的产物。当我们掌握了大量新型数据时,精确性不那么重要了,不因为依赖精确性,我们同样可以掌握事情的发展趋势。
大数据不仅让我们不再期待精确性,也让我们无法实现精确性。然而,除了一开始会与我们的直觉相矛盾之外,接受数据的不精确和不完美,我们反而能更好地进行预测,也能更好的理解这个世界。
相比依赖于小数据和精确性的时代,大数据因为更强调数据的完整性和混杂性,帮助我们进一步接近事实的真相。“部分”和“确切”的吸引力是可以理解的。但是,当我们的视野局限在我们可以分析和能够确定的数据上时,我们对世界的整体理解可能产生错误和偏差。
不仅失去了去尽力收集一切数据的动力,也失去了从各个不同角度来观察事物的权利。所以,局限于狭隘的小数据中,我们可以自豪于对精确性的追求,但是,算我们可以分析的到细节中的细节,也依然会错过事物的全貌。
像印象派的画风一样,近看画中的每一笔都感觉是混乱的,但是退后一步你会发现这是一副伟大的作品,因为你退后一步的时候能看出画作的整体思路了。
这是大数据时代,思维方式的一个改变,不执着于对精确性的追求,拥抱混乱。另外一个思维方式的转变则是,更加重视相关关系,而不偏执于基于假设基础上对因果关系的追寻。
在小数据的世界中,相关关系也是有用的,但在大数据的背景下,相关关系大放异彩。通过应用相关关系,我们可以比以前更容易、更便捷、更清楚地分析事物。
相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指一个数据增加时,另一个数据值很有可能也会随之增加。比如谷歌的流感趋势:在一个特定的地理位置,越多的人通过谷歌搜索特定的词条,该地区有更多的人患了流感。
相反,相关关系弱意味着当一个数据值增加,另一个数据值几乎不会发生变化。例如,我们可以寻找关于个人的鞋码和幸福的相关关系,但会发现它们几乎扯不上什么关系。
相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。当然,即使是很强的相关关系也不一定能解释每一种情况,比如两个事物看上去行为相似,但很有可能只是巧合。相关关系没有,只有可能性。
相关推荐
更新发布
功能测试和接口测试的区别
2023/3/23 14:23:39如何写好测试用例文档
2023/3/22 16:17:39常用的选择回归测试的方式有哪些?
2022/6/14 16:14:27测试流程中需要重点把关几个过程?
2021/10/18 15:37:44性能测试的七种方法
2021/9/17 15:19:29全链路压测优化思路
2021/9/14 15:42:25性能测试流程浅谈
2021/5/28 17:25:47常见的APP性能测试指标
2021/5/8 17:01:11