归档之于 ‘ 2016 年四月

《Spark1.6.1官方文档》Spark1.6.1操作指南

原文链接   译者:小村长

本项目是 Apache Spark1.6.1方文档的中文翻译版,之前翻译过spark1.5,由于网站有组织翻译Spark1.6.1所以我又重新翻译了一下,我翻译的这一章和spark1.5一样。本次翻译主要针对对Spark感兴趣和致力于从事大数据方法开发的人员提供有价值的中文资料,希望能够对大家的工作和学习有所帮助。

这个翻译本应该在二月份完成,由于一直出差加上加班导致短短一篇文章迟迟没有完成,在此想大家表示深深的歉意。同时也希望有能力的童鞋能够一起努力推动大数据在中国的发展,让天下没有难学的技术谢谢大家。

阅读全文

《Mavan官方文档》构建生命周期介绍

原文网址:The Build Lifecycle

构建生命周期基础

Maven是以构建生命周期这个核心概念为基础。构建生命周期是指为一个工程进行项目构建和分发的过程。

为了构建一个工程,有必要去学习一系列构建Maven项目的命令,并且POM文件会确保他们能够得到想要的结果。

Maven中内置了三个构建生命周期:default,clean和site。default生命周期处理工程的部署,clean生命周期处理工程的清理,而site生命周期则负责创建工程的站点文档。

阅读全文

《Maven官方文档》-Maven依赖机制简介

原文地址 译者:Tyrian

依赖机制是Maven最为用户熟知的特性之一,同时也是Maven所擅长的领域之一。单个项目的依赖管理并不难,
但是当你面对包含数百个模块的多模块项目和应用时,Maven能帮你保证项目的高度控制力和稳定性。

大纲:

  •  传递性依赖
    • 排除、可选依赖
  • 依赖范围
  • 依赖管理
    • 导入依赖
  • 系统依赖

阅读全文

Maven仓库介绍

原文地址 译者:刘小刘

仓库介绍

仓库

Maven中的仓库用来存放生成的构建和各种依赖。严格说来只有两种仓库:本地和远程。本地仓库指本机的一份拷贝,用来缓存远程下载、包含你尚未发布的临时构件。

阅读全文

Maven安装第三方Jar包到本地仓库

原文链接  译者:logan

尽管很少存在这样的情况,有时在你的构建过程中,需要将第三方jar包添加到本地仓库中,因为它并存在于像Maven中央仓库或其它的公共仓库中。为了让Maven能够正确获取到jar包,第三方jar包必须放置到本地仓库的正确位置上。Maven已经提供了maven-install-plugin这样的插件能够使Jar包的安装过程更加容易、更少出错。可以用下面的命令安装一个JAR包到本地仓库。

mvn install:install-file -Dfile= -DgroupId= -DartifactId= -Dversion= -Dpackaging=

阅读全文

《Maven官方指南》可选的依赖和依赖排除

原文链接

简介

这节主要讨论了可选的依赖排除功能。这将帮助用户理解它们是什么,怎么使用它们,它们是怎么工作的,和使用它们的最好的方式。同样也解释了为什么排除是在每个依赖的基础上,而不是在POM级别。

阅读全文

Hadoop上小文件存储处理

原文链接   译者:小村长

Hadoop–小文件存储处理

本篇文章项目是Cloudera论坛中无意中看到的,虽然原文写于2009年,但是当前开来Hadoop的小文件存储方案并没有很好的解决方案,所以感觉作者写的很好,也很详细,于是就抽空翻译了。本次翻译主要针对对Hadoop感兴趣和工作中使用到Hadoop的开发人员提供有价值的中文资料,希望能够对大家的工作和学习有所帮助。
阅读全文

《Spark 官方文档》Spark调优

spark-1.6.0 原文地址

Spark调优

由于大部分Spark计算都是在内存中完成的,所以Spark程序的瓶颈可能由集群中任意一种资源导致,如:CPU、网络带宽、或者内存等。最常见的情况是,数据能装进内存,而瓶颈是网络带宽;当然,有时候我们也需要做一些优化调整来减少内存占用,例如将RDD以序列化格式保存(storing RDDs in serialized form)。本文将主要涵盖两个主题:1.数据序列化(这对于优化网络性能极为重要);2.减少内存占用以及内存调优。同时,我们也会提及其他几个比较小的主题。
阅读全文

《Maven官方文档》POM文件

原文网址:The POM

什么是POM?

POM(project object model)包含了工程信息和工程的配置细节,Maven使用POM文件来构建工程。POM文件包含了工程中的大部分默认值。举个例子,target是默认的构建目录,src/main/java是默认的源码目录,src/test/java是默认的测试源码目录,等等。

Maven2中的pom.xml就是Maven1中的project.xml。相比于在maven.xml中包含可执行的goal,现在goals和plugins都可以在pom.xml中配置。当执行一个task或者goal时,Maven会在当前目录下寻找并读取pom.xml来获取配置信息,然后执行goal。

能在pom.xml中声明的配置包括工程依赖(project dependencies),插件(plugins),可执行的目标(goals),构建配置(build profiles)等等。其他信息,比如工程版本,描述,开发者,邮件列表等等也可以在pox.xml中声明。

阅读全文

《maven官方文档》5分钟开始Maven

原文地址

前提

你必须明白如何在电脑上安装软件。如果你不知道如何做,请向你学校、办公室里等的人请教下,或者付费给他人让他们解释给你。Maven邮件组不是寻求这个建议的最好地方。

阅读全文

《SLF4J官方文档》SLF4J迁移工具

原文地址

SLF4J迁移者

SLF4J迁移者是一个很小的Java工具,用于将Java源文件从Jakata Commons Logging(JCL)迁移到SLF4J。它也能将文件从log4j迁移到SLF4J,或者从java.util.logging API到SLF4J。

阅读全文

《Spark 官方文档》Spark编程指南

spark-1.6.0 [原文地址]

Spark编程指南

概述

总体上来说,每个Spark应用都包含一个驱动器(driver)程序,驱动器运行用户的main函数,并在集群上执行各种并行操作。

Spark最重要的一个抽象概念就是弹性分布式数据集(resilient distributed dataset – RDD),RDD是一个可分区的元素集合,其包含的元素可以分布在集群各个节点上,并且可以执行一些分布式并行操作。RDD通常是通过,HDFS(或者其他Hadoop支持的文件系统)上的文件,或者驱动器中的Scala集合对象,来创建或转换得到;其次,用户也可以请求Spark将RDD持久化到内存里,以便在不同的并行操作里复用之;最后,RDD具备容错性,可以从节点失败中自动恢复数据。

Spark第二个重要抽象概念是共享变量,共享变量是一种可以在并行操作之间共享使用的变量。默认情况下,当Spark把一系列任务调度到不同节点上运行时,Spark会同时把每个变量的副本和任务代码一起发送给各个节点。但有时候,我们需要在任务之间,或者任务和驱动器之间共享一些变量。Spark提供了两种类型的共享变量:广播变量累加器,广播变量可以用来在各个节点上缓存数据,而累加器则是用来执行跨节点的“累加”操作,例如:计数和求和。

本文将会使用Spark所支持的所有语言来展示Spark的特性。如果你能启动Spark的交互式shell动手实验一下,效果会更好(对scala请使用bin/spark-shell,而对于python,请使用bin/pyspark)。
阅读全文

《SLF4J官方文档》传统桥接API

原文地址

通常,有些组件取决或依赖Logging API,而不是SLF4J。你也可以假设不久的将来这些组件不会转变成SLF4J。为了处理这种情况,SLF4J装载了几个可以重定向调用的桥接模块,这些模块使得log4j, JCL and java.util.logging APIs

表现得仿佛他们是SLF4J的代替。下图阐述了这个想法。

请注意在你控制下的源代码,你真得应该用slf4j-migrator。本页所描述的基于二进制的解决方案是适合超出你控制范围的软件。

阅读全文

《Maven官方指南》翻译邀请

四月份并发网翻译邀请又来了,并发网会优先把大家平时用到的技术的文档翻译完成,所以本月邀请大家翻译Maven官方文档,有兴趣的同学可以通过评论领取,翻译完成之后再并发网直接提交审核。

一次领取一篇,翻译完成之后可以继续领取,领取文章后最好在一个星期内翻译完成,如果不能完成翻译请通过评论告知,以便于其他人可以继续翻译。

阅读全文

《Spark 官方文档》Spark快速入门

spark-1.6.0 原文地址

快速入门

本教程是对Spark的一个快速简介。首先,我们通过Spark的交互式shell介绍一下API(主要是Python或Scala),然后展示一下如何用Java、Scala、Python写一个Spark应用。更完整参考看这里:programming guide

首先,请到Spark website下载一个Spark发布版本,以便后续方便学习。我们暂时还不会用到HDFS,所以你可以使用任何版本的Hadoop。

阅读全文

return top