Archive for the ‘ 大数据 ’ Category

《Kafka官方文档》实现

1. API Design

Producer APIs

Producer API封装了底层两个Producer:

  • kafka.producer.SyncProducer
  • kafka.producer.async.AsyncProducer

Read more

原创文章,转载请注明: 转载自并发编程网 – ifeve.com本文链接地址: 《Kafka官方文档》实现

Ambari 架构(四)Ambari Agent 架构

作者:Base

Read more

原创文章,转载请注明: 转载自并发编程网 – ifeve.com本文链接地址: Ambari 架构(四)Ambari Agent 架构

Ambari 架构(三)Ambari Server 架构

作者:Base

Ambari Server 架构图,由图中看,主要有4部分:

Read more

原创文章,转载请注明: 转载自并发编程网 – ifeve.com本文链接地址: Ambari 架构(三)Ambari Server 架构

Ambari 架构(二)Ambari 整体架构

作者:Base

Ambari 整体架构图,由图中可以看出,主要有4部分: Read more

原创文章,转载请注明: 转载自并发编程网 – ifeve.com本文链接地址: Ambari 架构(二)Ambari 整体架构

Ambari 架构(一)Ambari 介绍

作者:Base

Ambari 是 Apache Software Foundation 的一个顶级开源项目,是一个集中部署、管理、监控 Hadoop 分布式集群的工具。但是这里的 Hadoop 是一个广义概念,并不仅仅指的是 Hadoop(HDFS、MapReduce),而是指 Hadoop 生态圈(包括 Spark、Hive、Hbase,Sqoop,Zookeeper、Flume 等),Ambari 可以使 Hadoop 大数据软件更容易使用,且可以方便的集成我们自己的服务让 Ambari 统一管理。
Read more

原创文章,转载请注明: 转载自并发编程网 – ifeve.com本文链接地址: Ambari 架构(一)Ambari 介绍

聊聊Cassandra-概览

原文地址

如果你想学习分布式系统,Cassandra可以说是一个好的开始。 Cassandra借鉴了两篇重要的论文中的思想:Google的BigTable和Amazon的Dynamo。它的存储基于BigTable,分布式基于Dynamo。这篇文章将尝试解释整体架构中的一些细节。

Read more

原创文章,转载请注明: 转载自并发编程网 – ifeve.com本文链接地址: 聊聊Cassandra-概览

Hadoop上小文件存储处理

原文链接   译者:小村长

Hadoop–小文件存储处理

本篇文章项目是Cloudera论坛中无意中看到的,虽然原文写于2009年,但是当前开来Hadoop的小文件存储方案并没有很好的解决方案,所以感觉作者写的很好,也很详细,于是就抽空翻译了。本次翻译主要针对对Hadoop感兴趣和工作中使用到Hadoop的开发人员提供有价值的中文资料,希望能够对大家的工作和学习有所帮助。
Read more

原创文章,转载请注明: 转载自并发编程网 – ifeve.com本文链接地址: Hadoop上小文件存储处理

Yahoo的流计算引擎基准测试

原文链接  译者:andy huang

 Yahoo的流计算引擎对比测试

(雅虎Storm团队排名不分先后 Sanket ChintapalliDerek DagitBobby EvansReza FarivarTom Graves, Mark Holderbaugh, Zhuo LiuKyle NusbaumKishorkumar PatilBoyang Jerry Peng and Paul Poulosky

免责声明:2015年12月17日的数据,数据团队已经给我们指出,我们不小心在Flink基准测试中留下的一些调试代码。 所以Flink基准测试应该不能直接与Storm和Spark比较。 我们在重新运行和重新发布报告时已经解决了这个问题。

Read more

原创文章,转载请注明: 转载自并发编程网 – ifeve.com本文链接地址: Yahoo的流计算引擎基准测试

Hortonworks(HDP)开发者认证-考试大纲

原文链接   译者:小村长

本项目是 Hortonworks开发者认证官方文档的中文翻译版,Hortonworks致力于打造一个全新的大数据处理平台来满足大数据处理和分析的各个使用场景,它组合了大数据平台使用的各个组件, 比如Hadoop、Hbase、Hive、Spark等等一些列的组件, 它安装方便使用便捷, 而且已经在2000节点以上的节点上商用. 本次翻译主要针对对Hortonworks感兴趣和致力于从事大数据方法开发的人员提供有价值的中文资料,希望能够对大家的工作和学习有所帮助。

由于我公司鼓励大家考Hortonworks认证(呵呵,公司出费用),于是今天简单的看了下官方考试大纲,感觉还不错,故翻译了下供大家参考学习,本次翻译并没有咬文嚼字, 而是根据我个人的理解进行翻译, 由于本人能力有限难免有些地方翻译不到位,还希望大家谅解,同时也鼓励大家去看官方文档。

Read more

原创文章,转载请注明: 转载自并发编程网 – ifeve.com本文链接地址: Hortonworks(HDP)开发者认证-考试大纲

《Spark官方文档》Spark操作指南

原文链接   译者:小村长

Spark–Quick Start

本项目是 Apache Spark官方文档的中文翻译版,致力于打造一个全新的大数据处理平台来满足大数据处理和分析的各个使用场景,本次翻译主要针对对Spark感兴趣和致力于从事大数据方法开发的人员提供有价值的中文资料,希望能够对大家的工作和学习有所帮助。

Spark最近几年在国内外都比较火,在淘宝、百度、腾讯、高伟达等一些公司有比较成熟的应用,做大数据方面的开发人员或多或少都与其有接触。Spark的中文资料相对前几年相对较多,但是我认为官方文档才是最好最完美的学习资料,今天让小村长为你揭开Spark的神秘面纱,一同走进Spark的精神世界。 Read more

原创文章,转载请注明: 转载自并发编程网 – ifeve.com本文链接地址: 《Spark官方文档》Spark操作指南

《Redis官方文档》分区

原文链接   译者:Alexandar Mahone

分区:如何把数据存储到多个Redis实例中

分区就是把你的数据分割到多个Redis实例中的一个过程,因此每个实例仅仅包含部分键。这篇文章第一部分介绍分区概念,第二部分将介绍Redis分区的用法。

(译者注:Redis集群是分区事实上标准)

Read more

原创文章,转载请注明: 转载自并发编程网 – ifeve.com本文链接地址: 《Redis官方文档》分区

《Apache Zookeeper官方文档》2-综述

原文地址

Zookeeper: 一个分布式应用的分布式协调服务

zookeeper 是一个分布式的,开源的协调服务框架,服务于分布式应用程序。

它暴露了一系列的基础的操作服务,因此分布式应用能够基于这些服务,构建出更高级别的服务,比如同步,配置管理,分组和命名服务。

zookeeper设计上易于编码,数据模型构建在我们熟悉的树形结构目录风格的文件系统中。

zookeeper运行在java中,同时支持java和C 语言。正确的实现协调服务是公认的难干的差事。 他们及其容易出错,比如资源竞争和死锁.

zookeeper 的使命和力量来源于,将分布式应用从处理协调服务的泥潭中走出来。

Read more

原创文章,转载请注明: 转载自并发编程网 – ifeve.com本文链接地址: 《Apache Zookeeper官方文档》2-综述

《Apache Zookeeper 官方文档》-1简介

原文地址   译者:JIT,方腾飞  校对:方腾飞

欢迎光临Zookeeper

Apache Zookeeper 是一个致力于开发和管理开源服务器,并且能实现高可靠性的分布式协调框架。
Read more

原创文章,转载请注明: 转载自并发编程网 – ifeve.com本文链接地址: 《Apache Zookeeper 官方文档》-1简介

颠覆大数据分析之类似Spark的系统

颠覆大数据分析之类似Spark的系统

译者:黄经业    购书

Nectar (Gunda 等2010),HaLoop (Bu 等2010),以及Twister(Ekanayake等2010)都是类似于Spark的系统。HaLoop是修改后的Hadoop,它增加了一个支持循环的任务调度器以及一定的缓存机制。缓存一方面是用于缓存映射器的循环数据变量,另一方面是用于缓存归约器的输出以便使得终止条件判断可以更高效地进行。Twister提供了订阅-发布的设施来实现一个广播的结构,同时它还能在历次迭代间指定及缓存静态数据。Twister和HaLoop都是扩展MR范式以支持迭代式运算的很有意思的实现。然而它们只能算是学术项目,并没有提供稳定的实现版本。除此之外,Spark通过世系所提供的容错性要比Twister和HaLoop所提供的要更先进和高效。另一个重要的不同在于Spark的编程模型更加通用,map和reduce只是它所支持的众多结构中的一组而已。它还有许多更强大的结构,包括reduceByKey以及前面所提到的一些。 Read more

原创文章,转载请注明: 转载自并发编程网 – ifeve.com本文链接地址: 颠覆大数据分析之类似Spark的系统

颠覆大数据分析之Shark:分布式系统上的SQL接口

颠覆大数据分析之Shark:分布式系统上的SQL接口

译者:黄经业    购书

内存计算已经成为了海量数据分析的一个重要范式。这一点可以从两个方面来进行理解。一方面,尽管当要查询的数据达到了PB级,但是由于时间和空间的局限性,在一个集群环境上仅需64GB的缓存就能够满足绝大多数的查询(95%)。Ananthanarayanan等人在一次研究中发现了这点。另一方面,由于机器学习算法需要在数据的工作集上进行迭代,如果工作数据集在内存中,它的实现会变得非常高效。Shark本质上可以看作是一个内存型的分布式SQL系统。

Shark基于Spark提供了SQL接口。Shark的主要特性就是它的SQL接口以及它能够基于机器学习来进行分析的能力,同时还有它为SQL查询和机器学习算法所提供的细粒度的容错性。对于查询而言,即使是粗粒度的RDD也能工作得很好,因为Shark可以从失败中进行恢复,它会去重新构造集群中丢失的RDD分区。这个恢复是细粒度的,这意味着它可以在查询的过程中进行恢复,并不像并行数据库系统那样得重新执行整个查询。

原创文章,转载请注明: 转载自并发编程网 – ifeve.com本文链接地址: 颠覆大数据分析之Shark:分布式系统上的SQL接口

return top