二、并行化

  大数据的定义有许多种,以下这种相对有用。“小数据”的情形类似于桌面环境,磁盘存储能力在1GB到10GB之间,“中数据”的数据量在100GB到1TB之间,“大数据”分布式的存储在多台机器上,包含1TB到多个PB的数据。

  如果你在分布式数据环境中工作,并且想在很短的时间内处理数据,这需要分布式处理。

  并行处理在分布式数据中脱颖而出,Hadoop是一个分布式/并行处理领域广为人知的例子。Hadoop包含一个大型分布式的文件系统,支持分布式/并行查询。

三、摘要索引

  摘要索引是一个对数据创建预计算摘要,以加速查询运行的过程。摘要索引的问题是,你必须为要执行的查询做好计划,因此它有所限制。

  数据增长飞速,对摘要索引的要求远不会停止,不论是长期考虑还是短期,供应商必须对摘要索引的制定有一个确定的策略。

四、数据可视化

 

可视化工具有两大类。

  探索性可视化描述工具可以帮助决策者和分析师挖掘不同数据之间的联系,这是一种可视化的洞察力。类似的工具有Tableau、TIBCO和QlikView,这是一类。

  叙事可视化工具被设计成以独特的方式探索数据。例如,如果你想以可视化的方式在一个时间序列中按照地域查看一个企业的销售业绩,可视化格式会被预先创建。数据会按照地域逐月展示,并根据预定义的公式排序。供应商Perceptive Pixel属于这一类。

五、生态系统战略

  许多大成功的公司都花费大量资金构建围绕它们产品的生态系统。这些生态系统被产品特性和商务模型所支持,并与合作伙伴的产品和技术协同工作。如果一个产品没有一个富有战略的生态系统,是很难适应客户的要求的。