超越Hadoop的大数据分析之前言

本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》译者：吴京润校对：方腾飞

我试图给人们学习大数据留下的一点深刻印象：尽管Apache Hadoop很有用，而且是一项非常成功的技术，但是这一观点的前提已经有些过时了。考虑一下这样一条时间线：由谷歌实现的MapReduce投入使用的时间可追溯到2002年，发表于2004年。Yahoo!于2006年发起Hadoop项目。MR是基于十年前的数据中心的经济上的考虑。从那时以来，已经有太多的东西发生了变化：多核心处理器、大内存地址空间、10G网络带宽、SSD，而至今，这已经产生足够的成本效益。这些极大改变了在构建可容错分布式商用系统规模方面的取舍。

此外，我们对于可处理数据的规模的观念也发生了变化。成功的公司诸如亚马逊、eBay、谷歌，它们想要更上一层楼，也促使随后的商业领袖重新思考：数据可以用来做什么？举个例子，十年前是否有为大型图书出版商优化业务的大规模图论用例？不见得有。出版社高层不可能有耐心听取这样一个古怪的工程建议。这本书本身的营销将基于大规模数据、开源、图论引擎，它们也将在本书后续章节讲到。同样的，广告科技和社交网络应用驱动着开发技术，而如今在工业化的因特网，采用Hadoop将显的捉襟见肘，也就是所谓的“物联网”——在某些情况下，会有几个数量级的差距。

自从MR的商用硬件规模首次制定以来，底层系统的模型已发生了巨大变化。我们的商业需求与期望模型也发生了显著的变化。此外，应用数学的数据规模与十年前的构想也有巨大的差异。如今主流编程语言也能为并行处理的软件工程实践提供更好的支持。

Agneeswaran博士认为这些视图，以及对它们的更多关注和系统方法，呈现了如今大数据环境的全景视图，甚至还有超越。本书引领我们看到过去十年如何通过MapReduce做批处理数据分析。这些章节介绍了理解它们的关键历史背景，并为应用这些技术提供了清晰的商业用例的至关重要的方面。这些论据为每个用例提供了分析，并指出为什么Hadoop不是很适合应用于此——通过对例证的彻底研究、对可用开源技术的出色调查、以及对非开源项目的出版文献的回顾。

本书研究了如今的商业需求中除Hadoop以外的最佳实践以及数据访问方式的可用技术：迭代、流式处理（译者注：原文是streaming）、图论，以及其它技术。比如，一些企业的收入损失计算可精确到毫秒级，以至于“批处理窗口”这样的概念变的毫无意义。实时分析是惟一可以想到的可行方案。开源框架诸如Apache Spark、Storm、Titan、GraphLab，还有Apache Mesos可以满足这些需求。Agneeswaran博士引导读者们了解这些框架的架构和计算模型、研究通用设计模式。他在书中提到了业务范围的影响以及实现细节还有代码样例。

伴随着这些框架，本书也为开放标准预测模型标记语言提出了一个引人入胜的例子，使得预测模型可以在不同平台与环境之间迁移。本书还提到YARN以及下一代超越MapReduce的模型。

这正是当今业界的焦点——Hadoop基于2002年以来的IT经济，然而更新的框架与当代业界的用例更为密切。另外，本书既提供了专家指导，也热烈欢迎由大数据分析开启的无限可能。

Paco Nathan

图书《Enterprise Data Workflows with Cascading》的作者（校对注：样章下载）

Zettacap的顾问以及Amplify的合作伙伴

原创文章，转载请注明： 转载自并发编程网 – ifeve.com本文链接地址: 超越Hadoop的大数据分析之前言

并发编程网 - ifeve.com

让天下没有难学的技术