AmosCloud

Library

Have a Question?

If you have any question you can ask below or enter what you are looking for!

[中译版]ApacheHadoop官方wiki-首页

  • 说明:
  1. 来源:本文档原文取自Hadoop官方文档Hadoop wiki Home
  2. 内容说明:文档内容均为本人人工翻译,部分章节会增加一些自己的理解,或将描述调整为更适合阅读的语序。
    不喜勿喷,若您在阅读过程中发现错误,敬请不吝赐教。
  3. 译者及联系方式:
    • Translator: Amos
    • E-mail: amos@amoscloud.com

Apache Hadoop

  • Apache Hadoop 是一个通用的框架,用于构建基于普通商用硬件设备的大规模应用集群。Hadoop的出现,使数据的可靠管理变得透明。
  • Hadoop通过MapReduce模块(下文简称MR),实现了经典的分布式计算架构,在MR中,一个计算任务会被拆分为多个较小粒度的子任务,子任务会被合理的分配到集群的任意节点执行,并在执行异常时,自动进行相应的故障转移。
  • 与此同时,Hadoop提供的分布式文件系统(HDFS),会将数据分散存储在集群的所有计算节点上,为整个集群提供极高的吞吐带宽。
  • Hadoop的MR和HDFS在设计上,都提供了自动的容错和故障转移机制。

基本信息(General Information)

Hadoop生态相关项目(Related-Projects)

  • HBase是一个基于Hadoop HDFS的结构化存储系统,其实现原理类似于Google-BigTable
  • Apache Pig 提供了一种特殊的高级数据流语言,以及高效的执行框架,用于构建并执行,基于Hadoop平台的并行计算程序。
  • Hive是一个数据仓库工具,Hive支持使用类SQL的HiveQL语句,直接读取和处理Hadoop(HDFS)上存储的各种类型的数据。
  • ZooKeeper是一个高可靠高性能的分布式集群协调服务。
  • Hama是一个与Google的Pregel类似的分布式计算框架,基于海量并行同步(BSP : Bulk Synchronous Parallel)计算技术实现,专门用于大规模科学计算。
  • Mahout是一个基于Hadoop平台的,可扩展的机器学习算法库
  • Hadoop兼容的其他文件系统 (HCFS)
  • Apache Gora是一个提供海量数据内存持久化的开源框架。Gora支持持久化列式存储、键值对存储、文档存储和RDBMS,并且支持使用Hadoop MapReduce对这些数据进行分析。

用户指南(User Documentation)

搭建Hadoop集群(Setting up a Hadoop Cluster)

教程收录(Tutorials)

MapReduce

MapReduce思想是Hadoop的基本思想,理解并掌握它,至关重要!
(原文中使用algorithm一词,在这里我觉得把算法翻译成思想更为贴切)

Hadoop的非主分支代码贡献(Contributed parts of the Hadoop codebase)

以下这些独立模块已经添加到Hadoop的代码库中,但目前并未与Hadoop的主项目分支紧密集成。

  • HadoopStreaming (有利于为Hadoop提供更多的编程语言支持)
  • DistributedLucene, 尝试在Hadoop中集成分布式索引引擎Lucene。
  • MountableHDFS, 致力于将HDFS作为一个标准的文件系统,支持挂在到Linux或者其他的Unix内核的操作系统中。
  • HDFS-APIs ,为HDFS提供Perl、Python、PHP等其他编程语言的支持。
  • Chukwa 是一个数据收集、存储和分析框架。
  • The Apache Hadoop Plugin for Eclipse (一个Eclipse插件,用于简化MapReduce程序的开发和部署)
  • HDFS-RAID 将源于磁盘阵列技术的纠删码(Erasure Coding)机制引入HDFS

开发者指南(Developer Documentation)

相关资源(Related Resources)

You must be logged in to post a comment.