颠覆大数据分析之Shark：分布式系统上的SQL接口 | 并发编程网 – ifeve.com

首页
大数据
颠覆大数据分析之Shark：分布式系统上的SQL接口

颠覆大数据分析之Shark：分布式系统上的SQL接口

颠覆大数据分析之Shark：分布式系统上的SQL接口

译者：黄经业购书

内存计算已经成为了海量数据分析的一个重要范式。这一点可以从两个方面来进行理解。一方面，尽管当要查询的数据达到了PB级，但是由于时间和空间的局限性，在一个集群环境上仅需64GB的缓存就能够满足绝大多数的查询（95%）。Ananthanarayanan等人在一次研究中发现了这点。另一方面，由于机器学习算法需要在数据的工作集上进行迭代，如果工作数据集在内存中，它的实现会变得非常高效。Shark本质上可以看作是一个内存型的分布式SQL系统。

Shark基于Spark提供了SQL接口。Shark的主要特性就是它的SQL接口以及它能够基于机器学习来进行分析的能力，同时还有它为SQL查询和机器学习算法所提供的细粒度的容错性。对于查询而言，即使是粗粒度的RDD也能工作得很好，因为Shark可以从失败中进行恢复，它会去重新构造集群中丢失的RDD分区。这个恢复是细粒度的，这意味着它可以在查询的过程中进行恢复，并不像并行数据库系统那样得重新执行整个查询。

原创文章，转载请注明： 转载自并发编程网 – ifeve.com本文链接地址: 颠覆大数据分析之Shark：分布式系统上的SQL接口

相关

21 Apr 2015
4,084 人阅读
我是谁
大数据
(1 votes, average: 5.00 out of 5)
Loading...
发表评论

Trackback 关闭
评论 (0)

暂无评论

Stackoverflow问答翻译征集令

颠覆大数据分析之Spark为Shark所提供的扩展

扫码关注公众号

热门文章

Google Guava官方教程（中文版） 1,062,903 人阅读
Java NIO系列教程（一） Java NIO 概述 745,947 人阅读
Java NIO 系列教程 517,999 人阅读
Java并发性和多线程介绍目录 502,152 人阅读
Java NIO系列教程（十二） Java NIO与IO 425,351 人阅读
Java NIO系列教程（六） Selector 373,206 人阅读
Java NIO系列教程（三） Buffer 371,028 人阅读
Java NIO系列教程（二） Channel 355,520 人阅读
69道Spring面试题和答案 347,448 人阅读
Java8初体验（二）Stream语法详解 325,689 人阅读
并发框架Disruptor译文 304,238 人阅读
Netty 5用户指南 252,867 人阅读
聊聊并发（三）Java线程池的分析和使用 240,029 人阅读
[Google Guava] 2.3-强大的集合工具类：ja... 239,576 人阅读
[Google Guava] 3-缓存 238,297 人阅读
《Storm入门》中文版 235,807 人阅读
面试题 233,218 人阅读
[Google Guava] 1.1-使用和避免null 226,642 人阅读
Java NIO系列教程（八） SocketChannel 220,499 人阅读
如何创建并运行java线程 211,027 人阅读

近期文章

分类