bigdata | 并发编程网 – ifeve.com

标签 ‘ bigdata ’

颠覆大数据分析之Spark弹性分布式数据集

颠覆大数据分析之Spark弹性数据集

译者：黄经业购书

Spark中迭代式机器学习算法的数据流可以通过图2.3来进行理解。将它和图2.1中Hadoop MR的迭代式机器学习的数据流比较一下。你会发现在Hadoop MR中每次迭代都会涉及HDFS的读写，而在Spark中则要简单得多。它仅需从HDFS到Spark中的分布式共享对象空间的一次读入——从HDFS文件中创建RDD。RDD可以重用，在机器学习的各个迭代中它都会驻留在内存里，这样能显著地提升性能。当检查结束条件发现迭代结束的时候，会将RDD持久化，把数据写回到HDFS中。后续章节会对Spark的内部结构进行详细介绍——包括它的设计，RDD，以及世系等等。

大数据

好烂啊

没价值

凑合看看

还不错

(2 votes, average: 3.00 out of 5)

Loading...

17 Apr 2015
6,628 人阅读
我是谁
发表评论

扫码关注公众号

热门文章

Google Guava官方教程（中文版） 1,025,679 人阅读
Java NIO系列教程（一） Java NIO 概述 732,256 人阅读
Java NIO 系列教程 488,155 人阅读
Java并发性和多线程介绍目录 465,137 人阅读
Java NIO系列教程（十二） Java NIO与IO 398,118 人阅读
Java NIO系列教程（六） Selector 343,260 人阅读
Java NIO系列教程（三） Buffer 342,803 人阅读
Java NIO系列教程（二） Channel 334,937 人阅读
69道Spring面试题和答案 333,117 人阅读
Java8初体验（二）Stream语法详解 305,588 人阅读
并发框架Disruptor译文 281,725 人阅读
Netty 5用户指南 237,093 人阅读
[Google Guava] 2.3-强大的集合工具类：ja... 227,158 人阅读
[Google Guava] 3-缓存 225,410 人阅读
《Storm入门》中文版 218,010 人阅读
面试题 214,912 人阅读
聊聊并发（三）Java线程池的分析和使用 214,493 人阅读
Java NIO系列教程（八） SocketChannel 209,417 人阅读
[Google Guava] 1.1-使用和避免null 206,523 人阅读
如何创建并运行java线程 194,993 人阅读

近期文章

分类