超越Hadoop的大数据分析之第一章介绍:为什么超越Hadoop Map-Reduce

本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》译者:吴京润
译者注:本文是本书第一章的开头,第一章其它部分由其他人翻译。

你可能是一个视频服务提供商,而你想基于网络环境动态的选择合适的内容分发网络来优化终端用户的体验。或者你是一个政府监管机构,需要为互联网页进行色情或非色情的分类以便过滤色情页面,同时还要做到高吞吐量以及实时性。或者你是一个通讯/移动服务提供商——要么你在这样的公司工作——而你担心客户流失(客户流失意味着,老用户离开而选择竞争对手,或者新用户加入竞争对手)。你一定非常想知道前一天有哪些客户在tweeter上抱怨你的服务。或者你是个零食店主,而你非常想对你的客户做购买预测,这样你就可以为你商品做更多有针对性的促销活动,并期望销售额由此带来的增长。或者你是一家医疗保险公司,当务之急是计算某位客户明年住院的概率,以便适当的修改的保费。或者你是一家金融产品公司的CTO,而公司希望拥有实时交易/预测算法,帮助确认损益表底线。或者你为一家电子制造公司工作,而你想在试运行期间预测故障、查明故障根源,以便在后来的实际运行中有效。这要归功于大数据分析创造的新世界。

分析已经存在很久了——北卡罗莱纳州立大学在1960年代晚期有一个用于农业研究的项目叫做“统计分析系统(SAS)”,后来该项目独立出来成立了SAS公司。术语analysisanalytics(译者注:本人不知道如何翻译这两个词)之间的惟一区别在于analytics通过分析数据得到可行性的见解。术语商业智能(BI)在商业环境的数据分析中也经常提到,可能最早见于Peter Luhn的一篇论文(Luhn 1958)。许多BI应用运行于数据仓库之上,直到最近也是如此。相比之下,从术语“分析”到“大数据”这个术语的深化是极其晚近的事了。

术语大数据似乎首先被John R. Mashey使用,后来硅谷图形公司(SGI)在一份在USENIX(UNIX用户协会)会议邀请报告的标题叫做“大数据与下一代基础架构压力”,它的副本可从http://static.usenix.

org/event/usenix99/invited_talks/mashey.pdf下载。该术语同样出现在一份计算协会的信件中(Bryson等 1999年)。来自META集团(如今的Gartner)的一份报告首次确认3V(大量、多样、快速,译者注:原谅是Volume variety velocity)为大数据的特征。谷歌关于MapReduce的论文(MR; Dean Ghemawat 2004)触发了在大数据领域的大量研究。虽然MR范式在函数式编程中为人所熟知,但是该论文也提供了在集群环境中该范式的可扩展性实现。该论文导致了Hadoop的出现——MR范式的开源实现,一个可用性范式的转变——使得最终用户能够在集群环境中处理大数据集。Hadoop,包括MR实现与Hadoop分布式文件系统(HDFS),如今已经成为数据处理的事实标准。大量的工业厂商正在改变游戏规则,例如迪斯尼、西尔百货、沃尔玛、AT&T已经有它们自己的Hadoop集群设施。

  • Trackback 关闭
  • 评论 (0)
  1. 暂无评论

return top