《Spark 官方文档》机器学习库（MLlib）指南

spark-1.6.1

机器学习库（MLlib）指南

MLlib是Spark的机器学习（ML）库。旨在简化机器学习的工程实践工作，并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道API。

MLllib目前分为两个代码包：

spark.mllib 包含基于RDD的原始算法API。
spark.ml 则提供了基于DataFrames 高层次的API，可以用来构建机器学习管道。

阅读全文

spark

(6 votes, average: 4.33 out of 5)

Loading...

08 Jul 2016
57,832 人阅读
邓林
发表评论

《Spark官方文档》Spark Streaming编程指南

spark-1.6.1 [原文地址]

Spark Streaming编程指南

概览

Spark Streaming是对核心Spark API的一个扩展，它能够实现对实时数据流的流式处理，并具有很好的可扩展性、高吞吐量和容错性。Spark Streaming支持从多种数据源提取数据，如：Kafka、Flume、Twitter、ZeroMQ、Kinesis以及TCP套接字，并且可以提供一些高级API来表达复杂的处理算法，如：map、reduce、join和window等。最后，Spark Streaming支持将处理完的数据推送到文件系统、数据库或者实时仪表盘中展示。实际上，你完全可以将Spark的机器学习（machine learning）和图计算（graph processing）的算法应用于Spark Streaming的数据流当中。

spark streaming-arch 阅读全文

spark

(6 votes, average: 5.00 out of 5)

Loading...

20 May 2016
43,178 人阅读
邓林
发表评论

《Spark 官方文档》Spark SQL, DataFrames 以及 Datasets 编程指南

spark-1.6.0 [原文地址]

Spark SQL, DataFrames 以及 Datasets 编程指南

概要

Spark SQL是Spark中处理结构化数据的模块。与基础的Spark RDD API不同，Spark SQL的接口提供了更多关于数据的结构信息和计算任务的运行时信息。在Spark内部，Spark SQL会能够用于做优化的信息比RDD API更多一些。Spark SQL如今有了三种不同的API：SQL语句、DataFrame API和最新的Dataset API。不过真正运行计算的时候，无论你使用哪种API或语言，Spark SQL使用的执行引擎都是同一个。这种底层的统一，使开发者可以在不同的API之间来回切换，你可以选择一种最自然的方式，来表达你的需求。

本文中所有的示例都使用Spark发布版本中自带的示例数据，并且可以在spark-shell、pyspark shell以及sparkR shell中运行。

阅读全文

spark

(5 votes, average: 5.00 out of 5)

Loading...

05 May 2016
65,999 人阅读
邓林
只有一条评论

《Spark 官方文档》Spark作业调度

spark-1.6.0 [原文地址]

Spark作业调度

概览

Spark有好几种计算资源调度的方式。首先，回忆一下集群模式概览（cluster mode overview）中每个Spark应用（包含一个SparkContext实例）中运行了一些其独占的执行器（executor）进程。集群管理器提供了Spark应用之间的资源调度（scheduling across applications）。其次，在各个Spark应用内部，各个线程可能并发地通过action算子提交多个Spark作业（job）。如果你的应用服务于网络请求，那这种情况是很常见的。在Spark应用内部（对应同一个SparkContext）各个作业之间，Spark默认FIFO调度，同时也可以支持公平调度（fair scheduler）。
阅读全文

spark

(3 votes, average: 5.00 out of 5)

Loading...

03 May 2016
22,415 人阅读
邓林
只有一条评论

《Spark 官方文档》硬件配置

spark-1.6.0 [原文地址]

硬件配置

Spark开发者们常常被问到的一个问题就是：如何为Spark配置硬件。我们通常会给出以下的建议，但具体的硬件配置还依赖于实际的使用情况。
阅读全文

spark

(3 votes, average: 4.00 out of 5)

Loading...

03 May 2016
10,706 人阅读
邓林
发表评论

《Spark 官方文档》Spark安全性

spark-1.6.0 [原文地址]

Spark安全性

Spark目前已经支持以共享秘钥的方式进行身份认证。开启身份认证配置参数为 spark.authenticate 。这个配置参数决定了Spark通讯协议是否使用共享秘钥做身份验证。验证过程就是一个基本的握手过程，确保通讯双方都有相同的秘钥并且可以互相通信。如果共享秘钥不同，双方是不允许通信的。共享秘钥可用以下方式创建：

对于以YARN 方式部署的Spark，将 spark.authenticate 设为true可以自动生成并分发共享秘钥。每个Spark应用会使用唯一的共享秘钥。
而对于其他部署类型，需要在每个节点上设置 spark.authenticate.secret 参数。这个秘钥将会在由所有 Master/Workers以及各个Spark应用共享。

阅读全文

spark

(2 votes, average: 5.00 out of 5)

Loading...

03 May 2016
16,412 人阅读
邓林
发表评论

《Spark 官方文档》Spark调优

spark-1.6.0 原文地址

Spark调优

由于大部分Spark计算都是在内存中完成的，所以Spark程序的瓶颈可能由集群中任意一种资源导致，如：CPU、网络带宽、或者内存等。最常见的情况是，数据能装进内存，而瓶颈是网络带宽；当然，有时候我们也需要做一些优化调整来减少内存占用，例如将RDD以序列化格式保存（storing RDDs in serialized form）。本文将主要涵盖两个主题：1.数据序列化（这对于优化网络性能极为重要）；2.减少内存占用以及内存调优。同时，我们也会提及其他几个比较小的主题。
阅读全文

spark

(3 votes, average: 5.00 out of 5)

Loading...

22 Apr 2016
14,623 人阅读
邓林
发表评论

《Spark 官方文档》Spark编程指南

spark-1.6.0 [原文地址]

Spark编程指南

概述

总体上来说，每个Spark应用都包含一个驱动器（driver）程序，驱动器运行用户的main函数，并在集群上执行各种并行操作。

Spark最重要的一个抽象概念就是弹性分布式数据集（resilient distributed dataset – RDD），RDD是一个可分区的元素集合，其包含的元素可以分布在集群各个节点上，并且可以执行一些分布式并行操作。RDD通常是通过，HDFS（或者其他Hadoop支持的文件系统）上的文件，或者驱动器中的Scala集合对象，来创建或转换得到；其次，用户也可以请求Spark将RDD持久化到内存里，以便在不同的并行操作里复用之；最后，RDD具备容错性，可以从节点失败中自动恢复数据。

Spark第二个重要抽象概念是共享变量，共享变量是一种可以在并行操作之间共享使用的变量。默认情况下，当Spark把一系列任务调度到不同节点上运行时，Spark会同时把每个变量的副本和任务代码一起发送给各个节点。但有时候，我们需要在任务之间，或者任务和驱动器之间共享一些变量。Spark提供了两种类型的共享变量：广播变量和累加器，广播变量可以用来在各个节点上缓存数据，而累加器则是用来执行跨节点的“累加”操作，例如：计数和求和。

本文将会使用Spark所支持的所有语言来展示Spark的特性。如果你能启动Spark的交互式shell动手实验一下，效果会更好（对scala请使用bin/spark-shell，而对于python，请使用bin/pyspark）。
阅读全文

spark

(4 votes, average: 5.00 out of 5)

Loading...

19 Apr 2016
29,828 人阅读
邓林
4 条评论

《Spark 官方文档》Spark快速入门

spark-1.6.0 原文地址

快速入门

本教程是对Spark的一个快速简介。首先，我们通过Spark的交互式shell介绍一下API（主要是Python或Scala），然后展示一下如何用Java、Scala、Python写一个Spark应用。更完整参考看这里：programming guide

首先，请到Spark website下载一个Spark发布版本，以便后续方便学习。我们暂时还不会用到HDFS，所以你可以使用任何版本的Hadoop。

阅读全文

spark

(7 votes, average: 4.86 out of 5)

Loading...

17 Apr 2016
59,295 人阅读
邓林
发表评论

《Spark 官方文档》监控和工具

spark-1.6.0 原文地址

监控和工具

监控Spark应用有很多种方式：web UI，metrics 以及外部工具。

Web界面

每个SparkContext都会启动一个web UI，其默认端口为4040，并且这个web UI能展示很多有用的Spark应用相关信息。包括：

一个stage和task的调度列表
一个关于RDD大小以及内存占用的概览
运行环境相关信息
运行中的执行器相关信息

阅读全文

spark

(6 votes, average: 3.67 out of 5)

Loading...

12 Apr 2016
24,934 人阅读
邓林
发表评论

《Spark 官方文档》Spark配置

spark-1.6.0 原文地址

Spark配置

Spark有以下三种方式修改配置：

Spark properties （Spark属性）可以控制绝大多数应用程序参数，而且既可以通过 SparkConf 对象来设置，也可以通过Java系统属性来设置。
Environment variables （环境变量）可以指定一些各个机器相关的设置，如IP地址，其设置方法是写在每台机器上的conf/spark-env.sh中。
Logging （日志）可以通过log4j.properties配置日志。

阅读全文

spark

(7 votes, average: 3.71 out of 5)

Loading...

11 Apr 2016
39,873 人阅读
邓林
发表评论

《Spark 官方文档》在YARN上运行Spark

spark-1.6.0 原文地址

在YARN上运行Spark

对 YARN (Hadoop NextGen) 的支持是从Spark-0.6.0开始的，后续的版本也一直持续在改进。

阅读全文

spark

(8 votes, average: 4.25 out of 5)

Loading...

06 Apr 2016
22,769 人阅读
邓林
发表评论

《Spark 官方文档》在Mesos上运行Spark

spark-1.6.0 [原文地址]

在Mesos上运行Spark

Spark可以在由Apache Mesos 管理的硬件集群中运行。

在Mesos集群中使用Spark的主要优势有：

可以在Spark以及其他框架（frameworks）之间动态划分资源。
可以同时部署多个Spark实例，且各个实例间的资源分配可以调整。

阅读全文

spark

(3 votes, average: 3.67 out of 5)

Loading...

01 Apr 2016
15,688 人阅读
邓林
发表评论

《Spark 官方文档》在Amazon EC2上运行Spark

Spark 1.6.0

在Amazon EC2上运行Spark

Spark的ec2目录下有一个spark-ec2脚本，可以帮助你在Amazon EC2上启动、管理、关闭Spark集群。该脚本能在EC2集群上自动设置好Spark和HDFS。本文将会详细描述如何利用spark-ec2脚本来启动和关闭集群，以及如何在集群提交作业。当然，首先你必须在Amazon Web Services site上注册一个EC2的账户。
阅读全文

spark

(4 votes, average: 4.00 out of 5)

Loading...

13 Mar 2016
15,898 人阅读
邓林
只有一条评论

《Spark 官方文档》Spark独立模式

spark 1.6.0 [原文地址]

Spark独立模式

Spark除了可以在Mesos和YARN集群上运行之外，还支持一种简单的独立部署模式。独立部署模式下，你既可以手工启动（手动运行master和workers），也可以利用我们提供的启动脚本（launch scripts）。同时，独立部署模式下，你可以在单机上运行这些程序，以方便测试。

阅读全文

spark

(4 votes, average: 4.00 out of 5)

Loading...

08 Mar 2016
17,739 人阅读
邓林
只有一条评论

让天下没有难学的技术

标签 ‘ spark官方文档 ’

spark-1.6.1

机器学习库（MLlib）指南

spark-1.6.1 [原文地址]

Spark Streaming编程指南

概览

Spark SQL, DataFrames 以及 Datasets 编程指南

概要

Spark作业调度

概览

硬件配置

Spark安全性

Spark调优

Spark编程指南

概述

快速入门

spark-1.6.0 原文地址

监控和工具

Web界面

Spark配置

在YARN上运行Spark

spark-1.6.0 [原文地址]

在Mesos上运行Spark

在Amazon EC2上运行Spark

Spark独立模式

页面导航

扫码关注公众号

热门文章

近期文章

分类

标签