Apache Storm 官方文档 —— 配置

Storm 有大量配置项用于调整 nimbus、supervisors 和拓扑的行为。有些配置项是系统级的配置项，在拓扑中不能修改，另外一些配置项则是可以在拓扑中修改的。

每一个配置项都在 Storm 代码库的 defaults.yaml 中有一个默认值。可以通过在 Nimbus 和 Supervisors 的环境变量中定义一个 storm.yaml 来覆盖默认值。最后，在使用 StormSubmitter 提交拓扑时也可以定义基于具体拓扑的配置项。但是，基于拓扑的配置项仅仅能够覆盖那些以 “TOPOLOGY” 作为前缀的配置项。

阅读全文

storm

(2 votes, average: 3.00 out of 5)

Loading...

31 Jul 2015
15,773 人阅读
魏勇
发表评论

Apache Storm 官方文档 —— 基础概念

原文链接译者：魏勇

Storm 系统中包含以下几个基本概念：

拓扑（Topologies）
流（Streams）
数据源（Spouts）
数据流处理组件（Bolts）
数据流分组（Stream groupings）
可靠性（Reliability）
任务（Tasks）
工作进程（Workers）

译者注：由于 Storm 的几个基础概念无论是直译还是意译均不够清晰，而且还会让习惯了 Storm 编程模型的读者感到困惑，因此后文在提及这些概念时大多还会以英文原文出现，希望大家能够谅解。

阅读全文

storm

(9 votes, average: 4.00 out of 5)

Loading...

31 Jul 2015
23,826 人阅读
魏勇
3 条评论

《Storm入门》中文版

本文翻译自《Getting Started With Storm》译者：吴京润编辑：郭蕾方腾飞

本书的译文仅限于学习和研究之用，没有原作者和译者的授权不能用于商业用途。

译者序

Storm入门终于翻译完了。首先感谢并发编程网同意本人在网站上首发本书译文，同时还要感谢并发编程网的各位大牛们的耐心帮助。这是本人翻译的第一本书，其中必有各种不足请诸位读者朋友不吝斧正。

译完此书之后，我已经忘记了是如何知道的Storm这个工具了。本人读过的所有技术书籍大部分都是在地铁上完成的，现在已经成了习惯。最近发现自己有一阵子没有看书，那个时候大数据已经相当火热，我就想找一些讲大数据分析的书来读一读，虽然一直没有机会接触大数据的工作，不过做一些技术储备也是好的。于是上谷歌和亚马逊用“大数据”、“实时分析”这类关键词搜索相关的技术文章和书籍。然后就知道了Storm，可惜一直没有找到中文的相关内容，只找到这一本《Getting Started with Storm》。可惜本人英文词汇量实在太少，书买来之后一直束之高阁，后来突发奇想我为什么不利用业余时间把这本书翻译了呢？于是由本人完成的《Getting Started with Storm》在并发编程网面世了。在本人之前已有人在CSDN上完成了本书除附录以外的全部翻译，并且有了PDF版。不过既然已经开始就不忍中途放弃了，所以一直坚持把本书译完。再次感谢并发编程网的朋友们的支持。

阅读全文

(30 votes, average: 4.47 out of 5)

Loading...

19 May 2014
235,009 人阅读
我是谁
2 条评论

Storm入门之附录C

本文翻译自《Getting Started With Storm》译者：吴京润编辑：郭蕾方腾飞

安装实际的例子

译者注：有些软件的最新版本已有变化，译文不会完全按照原文翻译，而是列出当前最新版本的软件。

首先，从下述GitHub的URL克隆这个例子：

阅读全文

(4 votes, average: 2.00 out of 5)

Loading...

16 May 2014
17,448 人阅读
我是谁
发表评论

Storm入门之附录B

本文翻译自《Getting Started With Storm》译者：吴京润编辑：郭蕾方腾飞

安装Storm集群

译者注：本附录的内容已经有些陈旧了。最新的Storm已不再必须依赖ZeroMQ，各种依赖的库和软件也已经有更新的版本。

阅读全文

(4 votes, average: 2.00 out of 5)

Loading...

15 May 2014
13,526 人阅读
我是谁
发表评论

Storm入门之附录A

本文翻译自《Getting Started With Storm》译者：吴京润编辑：郭蕾方腾飞

安装Storm客户端

Storm客户端能让我们使用命令管理集群中的拓扑。按照以下步骤安装Storm客户端：

从Storm站点下载最新的稳定版本（https://github.com/nathanmarz/storm/downloads）当前最新版本是storm-0.8.1。（译者注：原文是storm-0.6.2，不过翻译的时候已经是storm-0.8.1了）
把下载的文件解压缩到/usr/local/bin/storm的Storm共享目录。
把Storm目录加入PATH环境变量，这样就不用每次都输入全路径执行Storm了。如果我们使用了/usr/local/bin/storm，执行export PATH=$PATH:/usr/local/bin/storm。
最后，创建Storm本地配置文件：~/.storm/storm.yaml，在配置文件中按如下格式加入nimbus主机：

[code lang=”yaml”]
nimbus.host:"我们的nimbus主机"
[/code]

阅读全文

(5 votes, average: 4.20 out of 5)

Loading...

15 May 2014
14,985 人阅读
我是谁
发表评论

Storm入门之第8章事务性拓扑

本文翻译自《Getting Started With Storm》译者：吴京润编辑：郭蕾方腾飞

正如书中之前所提到的，使用Storm编程，可以通过调用ack和fail方法来确保一条消息的处理成功或失败。不过当元组被重发时，会发生什么呢？你又该如何砍不会重复计算？

Storm0.7.0实现了一个新特性——事务性拓扑，这一特性使消息在语义上确保你可以安全的方式重发消息，并保证它们只会被处理一次。在不支持事务性拓扑的情况下，你无法在准确性，可扩展性，以空错性上得到保证的前提下完成计算。

阅读全文

(5 votes, average: 4.20 out of 5)

Loading...

13 May 2014
27,373 人阅读
我是谁
只有一条评论

Storm入门之第7章使用非JVM语言开发

本文翻译自《Getting Started With Storm》译者：吴京润编辑：郭蕾方腾飞

有时候你可能想使用不是基于JVM的语言开发一个Storm工程，你可能更喜欢使用别的语言或者想使用用某种语言编写的库。

Storm是用Java实现的，你看到的所有这本书中的spout和bolt都是用java编写的。那么有可能使用像Python、Ruby、或者JavaScript这样的语言编写spout和bolt吗？答案是当然

可以！可以使用多语言协议达到这一目的。

多语言协议是Storm实现的一种特殊的协议，它使用标准输入输出作为spout和bolt进程间的通讯通道。消息以JSON格式或纯文本格式在通道中传递。

我们看一个用非JVM语言开发spout和bolt的简单例子。在这个例子中有一个spout产生从1到10,000的数字，一个bolt过滤素数，二者都用PHP实现。

阅读全文

(2 votes, average: 2.50 out of 5)

Loading...

20 Apr 2014
19,639 人阅读
我是谁
只有一条评论

Storm入门之第6章一个实际的例子

本文翻译自《Getting Started With Storm》译者：吴京润编辑：郭蕾方腾飞

本章要阐述一个典型的网络分析解决方案，而这类问题通常利用Hadoop批处理作为解决方案。与Hadoop不同的是，基于Storm的方案会实时输出结果。

我们的这个例子有三个主要组件（见图6-1）

一个基于Node.js的web应用，用于测试系统
一个Redis服务器，用于持久化数据
一个Storm拓扑，用于分布式实时处理数据

阅读全文

(9 votes, average: 3.56 out of 5)

Loading...

20 Apr 2014
55,417 人阅读
我是谁
发表评论

Storm入门之第五章Bolts

本文翻译自《Getting Started With Storm》译者：吴京润编辑：方腾飞

第5章 Bolts

正如你已经看到的，bolts是一个Storm集群中的关键组件。你将在这一章学到bolt生命周期，一些bolt设计策略，以及几个有关这些内容的例子。

Bolt生命周期

Bolt是这样一种组件，它把元组作为输入，然后产生新的元组作为输出。实现一个bolt时，通常需要实现IRichBolt接口。Bolts对象由客户端机器创建，序列化为拓扑，并提交给集群中的主机。然后集群启动工人进程反序列化bolt，调用prepare，最后开始处理元组。
阅读全文

(7 votes, average: 4.43 out of 5)

Loading...

30 Mar 2014
47,305 人阅读
我是谁
3 条评论

Storm入门之第四章Spouts

本文翻译自《Getting Started With Storm》译者：吴京润编辑：方腾飞

你将在本章了解到spout作为拓扑入口和它的容错机制相关的最常见的设计策略。

可靠的消息 VS 不可靠的消息

在设计拓扑结构时，始终在头脑中记着的一件重要事情就是消息的可靠性。当有无法处理的消息时，你就要决定该怎么办，以及作为一个整体的拓扑结构该做些什么。举个例子，在处理银行存款时，不要丢失任何事务报文就是很重要的事情。但是如果你要统计分析数以百万的tweeter消息，即使有一条丢失了，仍然可以认为你的结果是准确的。

对于Storm来说，根据每个拓扑的需要担保消息的可靠性是开发者的责任。这就涉及到消息可靠性和资源消耗之间的权衡。高可靠性的拓扑必须管理丢失的消息，必然消耗更多资源；可靠性较低的拓扑可能会丢失一些消息，占用的资源也相应更少。不论选择什么样的可靠性策略，Storm都提供了不同的工具来实现它。

要在spout中管理可靠性，你可以在分发时包含一个元组的消息ID（collector.emit(new Values(…),tupleId)）。在一个元组被正确的处理时调用ack方法，而在失败时调用fail方法。当一个元组被所有的靶bolt和锚bolt处理过，即可判定元组处理成功（你将在第5章学到更多锚bolt知识）。
阅读全文

(11 votes, average: 4.55 out of 5)

Loading...

30 Mar 2014
36,470 人阅读
我是谁
发表评论

Storm入门之第三章拓扑

本文翻译自《Getting Started With Storm》译者：吴京润编辑：方腾飞

在这一章，你将学到如何在同一个Storm拓扑结构内的不同组件之间传递元组，以及如何向一个运行中的Storm集群发布一个拓扑。

数据流组

设计一个拓扑时，你要做的最重要的事情之一就是定义如何在各组件之间交换数据（数据流是如何被bolts消费的）。一个数据流组指定了每个bolt会消费哪些数据流，以及如何消费它们。

NOTE：一个节点能够发布一个以上的数据流，一个数据流组允许我们选择接收哪个。

数据流组在定义拓扑时设置，就像我们在第二章看到的：

···
    builder.setBolt("word-normalizer", new WordNormalizer())
           .shuffleGrouping("word-reader");
···

在前面的代码块里，一个bolt由TopologyBuilder对象设定，然后使用随机数据流组指定数据源。数据流组通常将数据源组件的ID作为参数，取决于数据流组的类型不同还有其它可选参数。

NOTE：每个InputDeclarer可以有一个以上的数据源，而且每个数据源可以分到不同的组。
阅读全文

(14 votes, average: 4.64 out of 5)

Loading...

24 Mar 2014
47,577 人阅读
我是谁
2 条评论

Storm入门第二章准备开始

本文翻译自《Getting Started With Storm》译者：吴京润编辑：方腾飞

准备开始

在本章，我们要创建一个Storm工程和我们的第一个Storm拓扑结构。

NOTE: 下面假设你的JRE版本在1.6以上。我们推荐Oracle提供的JRE。你可以到http://www.java .com/downloads/下载。

操作模式

开始之前，有必要了解一下Storm的操作模式。有下面两种方式。

本地模式

在本地模式下，Storm拓扑结构运行在本地计算机的单一JVM进程上。这个模式用于开发、测试以及调试，因为这是观察所有组件如何协同工作的最简单方法。在这种模式下，我们可以调整参数，观察我们的拓扑结构如何在不同的Storm配置环境下运行。要在本地模式下运行，我们要下载Storm开发依赖，以便用来开发并测试我们的拓扑结构。我们创建了第一个Storm工程以后，很快就会明白如何使用本地模式了。

阅读全文

(15 votes, average: 4.13 out of 5)

Loading...

18 Mar 2014
92,368 人阅读
我是谁
8 条评论

Storm入门之第一章

storm
原书下载地址译者：吴京润编辑：方腾飞

译者注：本文翻译自《Getting Started With Storm》，本书中所有Storm相关术语都用斜体英文表示。这些术语的字面意义翻译如下，由于这个工具的名字叫Storm，这些术语一律按照气象名词解释

spout 龙卷，读取原始数据为bolt提供数据
bolt 雷电，从spout或其它bolt接收数据，并处理数据，处理结果可作为其它bolt的数据源或最终结果
nimbus 雨云，主节点的守护进程，负责为工作节点分发任务。

下面的术语跟气象就没有关系了

topology 拓扑结构，Storm的一个任务单元
define field(s) 定义域，由spout或bolt提供，被bolt接收

本文是该书的第一章。

基础知识

Storm是一个分布式的，可靠的，容错的数据流处理系统。它会把工作任务委托给不同类型的组件，每个组件负责处理一项简单特定的任务。Storm集群的输入流由一个被称作spout的组件管理，spout把数据传递给bolt， bolt要么把数据保存到某种存储器，要么把数据传递给其它的bolt。你可以想象一下，一个Storm集群就是在一连串的bolt之间转换spout传过来的数据。阅读全文

(18 votes, average: 4.72 out of 5)

Loading...

16 Mar 2014
121,663 人阅读
我是谁
2 条评论

并发编程网 - ifeve.com

让天下没有难学的技术

‘ storm ’ 目录归档

Apache Storm 官方文档 —— 配置

Apache Storm 官方文档 —— 基础概念

《Storm入门》中文版

Storm入门之附录C

安装实际的例子

Storm入门之附录B

安装Storm集群

Storm入门之附录A

安装Storm客户端

Storm入门之第8章事务性拓扑

Storm入门之第7章使用非JVM语言开发

Storm入门之第6章一个实际的例子

Storm入门之第五章Bolts

第5章 Bolts

Bolt生命周期

Storm入门之第四章Spouts

Storm入门之第三章拓扑

数据流组

Storm入门第二章准备开始

Storm入门之第一章

页面导航

扫码关注公众号

热门文章

近期文章

分类

让天下没有难学的技术

‘ storm ’ 目录归档

安装实际的例子

安装Storm集群

安装Storm客户端

第5章 Bolts

Bolt生命周期

数据流组

页面导航

扫码关注公众号

热门文章

近期文章

分类

标签