从今天开始, 我会陆陆续续写一些hadoop的文章,只能是自己的一点个人理解,希望和大家一起学习分布式计算思想及其应用,我会直接从最新的hadoop版本开始。
有人会问为什么会有Hadoop?
任何一个东西的出来与流行都是有原因的,我的理解就是为了把一堆廉价的机器组合起来完成一个很大的计算任务,例如搜索外星人计算,基因检测计算。 而hadoop就是一个框架,能够自动给这些廉价的机器分配计算任务,具体可以参看http://hadoop.apache.org/
Hadoop仅仅是大数据处理系统里面的一个小成员,下面的一张图可以看到它所处的位置,你会发现有好多东西要研究,不用紧张,如果你了解了Hadoop和HDFS, 其他都可很快熟悉。
从hadoop 官网http://hadoop.apache.org/docs/r2.7.1/ 可知, 最新的版本是2.7.1. 初看应该算是一个比较稳定的版本,对比2.6.x,区别主要有如下几点:
JDK
- 不再支持JDK6, 仅仅支持JDK7+
HDFS
- HDFS 支持文件truncate
- HDFS 支持存储类型的配额设置
- HDFS支持可变长度的block文件
YARN
- YARN的授权可插拔
- 自动共享,YARN本地资源的全局缓存(beta)
MAPREDUCE
- 能够限制一个job的task
- 对于有很多输出文件的大job,加速了FileOutputCommitter