變更

← 較舊編輯

Hadoop权威指南

增加 8,118 位元組, 1 年前

小

rollbackEdits.php mass rollback

{| class="wikitable" align="right"

|-

| style="background: #008080" align= center| '''<big>Hadoop权威指南</big> '''

|-

|

[[File:20121007150209-10897234.jpg|缩略图|居中|[https://pic.baike.soso.com/p/20121007/20121007150209-10897234.jpg 原图链接][https://baike.sogou.com/PicBooklet.v?relateImageGroupIds=&lemmaId=56710028&now=https%3A%2F%2Fpic.baike.soso.com%2Fp%2F20121007%2F20121007150209-10897234.jpg&type=1#simple_0 来自搜狗的图片]]]

|-

| style="background: #008080" align= center|

|-

| align= light|

|}

本书从Hadoop的缘起开始，由浅入深，结合理论和实践，全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。全书共14章，3个附录，涉及的主题包括：Haddoop简介；MapReduce简介；Hadoop分布式文件系统；Hadoop的I／O、MapReduce应用程序开发；MapReduce的工作机制；MapReduce的类型和格式；MapReduce的特性；如何安装Hadoop集群，如何管理Hadoop；Pig简介；Hbase简介；ZooKeeper简介，最后还提供了丰富的案例分析。

==基本介绍==

书　名： Hadoop权威指南

作　者：（美）怀特　著，[[曾大聃]]，[[周傲英]]　译，周敏　审校

出版社： [[清华大学出版社]]

出版时间： 2010-5-1

I S B N ： 9787302224242

定　价：￥79.00

==内容简介==

本书是Hadoop权威参考，程序员可从中探索如何分析海量数据集，管理员可以从中了解如何安装与运行Hadoop集群。

==图书目录==

第1章初识Hadoop

第2章 MapReduce简介

第3章 Hadoop分布式文件系统

第4章 Hadoop的I/O

第5章 MapReduce应用开发

第6章 MapReduce的工作原理

第7章 MapReduce的类型与格式

第8章 MapReduce特性

第9章 Hadoop集群的安装

第10章 Hadoop的管理

第11章 Pig简介

第12章 Hbase简介

第13章 ZooKeeper简介

第14章案例研究

附录A Apache Hadoop的安装

附录B Cloudera的Hadoop分发包

附录C 预备NCDC气象资料

==Hadoop与传统BI的对比==

新兴互联网公司百度，以及传统航空企业东航，都在大数据领域进行了深入尝试，同样在大数据领域同样乐此不疲的还有雅虎、中国移动、阿里巴巴等。这些企业都无一例外的认识到，数据已经成为企业的核心资产，如何充分利用这部分核心资产，并挖掘更多的商业价值，将关乎这些企业能否在大数据时代继续保持基业常青。

今天，企业对数据价值的认同已经成为共识，然而如何从海量的数据信息中挖掘其中的价值却并不那么容易，幸运的是，百度找到了hadoop数据挖掘与分析工具。

“当时的百度也有自己的几个分布式处理框架，但是在扩展性和容错方面尚有一些问题，并且都较为专用，缺乏较通用的计算模型。那时百度也启动了一系列较底层的基础框架方面的项目，同时也看到了Google关于MapReduce的论文，于是开始了基于自身需求的Hadoop定制化。”马如悦如是说。

Hadoop是一个开源的分布式系统基础架构，由Apache基金会开发，使得用户可以在不了解分布式底层细节的情况下，开发分布式应用程序，充分利用集群的威力实现高速运算和存储。Hadoop尤其适合大数据的分析与挖掘，最为常见的应用就是Web数据分析。因为从本质上讲，Hadoop提供了在大规模服务器集群中捕捉、组织、搜索、共享以及分析数据的模式，且可以支持多种数据源 (结构化、半结构化和非结构化)，规模则能够从几十台服务器扩展到上千台服务器。

随着越来越多的传统企业开始关注大数据的价值，Hadoop也开始在传统企业的商业智能或数据分析系统中扮演重要角色。相比传统的基于数据库的商业智能解决方案，Hadoop拥有无以比拟的灵活性优势和成本优势，这一点eBay自动化架构总监Juhan Lee深有体会：

“从海量的非结构化数据中分析数据，并试图找出其中暗藏的规律时，我们往往需要构建一个数据分析的模型，并把这些非结构化数据进行结构化，生成一个分析型的数据库。” Juhan解释说。

“问题在于，你根据某种分析的需要将大批非结构化数据转化成结构化数据之后，一旦分析的需求发生变化，你需要把之前的工作重新做一遍。Hadoop的内部数据存储能力是非常重要的，能在你不知道该如何处理数据的时候尽可能多的保存数据，Hadoop系统允许你不断的尝试。在传统的数据分析系统中，你必须明确的知道你希望做什么，需要哪些数据。”

而百度马如悦则告诉IT168编辑：MapReduce现在在百度使用非常广泛，包括分布式网页索引的建立，各种日志的挖掘分析等。集群总机器数在万数量级，日均输入数据处理量在20PB左右。

此外马如悦认为Hadoop 并不适用于不涉及大量数据的实时处理、计算密集型任务。“一般而言，我们认为MapReduce较适合处理时效性要求在5分钟以上的业务。”

==推荐==

《Hadoop权威指南(第2版)(修订•升级版)》编辑推荐：Google帝国的基石是什么？MapReduce算法！开源项目Hadoop作为它的一个具体实现，可以轻松用于构建和维护一个可靠性高、伸缩性强的分布式系统。

作者Tom White作为Hadoop的项目负责人，通过自己对Hadoop和Hadoop社区的理解，化繁为简，用浅显易懂的语言介绍了Hadoop能做什么，怎么做才能充分发挥Hadoop的优势，Hadoop能够和哪些开源工具结合使用。《Hadoop权威指南（第2版）》是一本主题丰富、讲解透彻的权威参考书，可帮助程序员了解分析海量数据集的细枝末节，帮助管理员掌握搭建和运行Hadoop集群的具体过程。

经过修订和更新的第2版概述了Hadoop的最新动态，例如Hive、sqoop和Avro等。书中还提供了案例分析来帮助读者了解如何用Hadoop来解决具体的问题。如果想充分利用数据，从中挖掘出有价值的见解或者观点，毫无疑问，《Hadoop权威指南(第2版)(修订•升级版)》将是您不可或缺的重要参考。

“谁说大象不能跳舞？Hadoop-轻松应对海量数据存储与分析所带来的挑战！”

使用Hadoop分布式文件系统（HDFS）来存储大型数据集，然后用MapReduce对这些数据II执行分布式计算。Hadoop的数据和I/O构建块（用于压缩、数据完整性、序列化和持久处理）。

探究MapReduce应用开发中常见的陷阱和高级特性。设计，构建和管理Hadoop专用集群或在云上运行Hadoop。使用Pig这种高级的查询语言来进行大规模数据处理。使用Hive（Hadoop的数据仓库系统）来分析数据集。

使用HBase（Hadoop的数据库）来处理结构化数据和半结构化数据。

深入介绍Zookeeper，一个用于构建分布式系统的协作类型工具箱。

Cloudera是一家行业领先的Hadoop软件和服务供应商。Cloudera's Distribution forHadoop （CDH）是一个基于Apache Hadoop的综合性数据管理平台，Cloudera Enterprise则包括一些工具、平台和支持，供生产环境中使用Hadoop时使用。

==媒体推荐==

有了这本权威指南，读者有机会通过大师的手笔来学习Hadoop——在掌握技术的同时，领略作者的睿智和清晰的文风。

——Hadoop创始人 Doug Cutting于Cloudera

==作者简介==

作者：（美国）怀特（Tom White）译者：周敏奇钱卫宁金澈清王晓玲

怀特（Tom White），从2007年以来，一直担任Apache Hadoop项目负责人。他是Apache软件基金会的成员之一，同时也是Cloudera的一名工程师。Tom为oreully网、java.net和IBM的developerWorks写过大量文章，并经常在很多行业大会上发表演讲。<ref>[https://book.douban.com/subject/6523762/ Hadoop权威指南（第2版）]豆瓣读书网</ref>

=='''参考文献'''==

[[Category:011 圖書學]]

Maintenance script

39,146

次編輯

求真百科

變更

Hadoop权威指南