《Hadoop 权威指南》读书笔记第一篇带你初步了解一下 Hadoop
1 初识Hadoop
Hadoop 是一个数据存储和分析的分布式系统
1.1 数据
大量数据
不仅仅是公司才面对着大量数据,对于个人来说,也是如此。最近心血来潮开始拍视频,然后 50G 存储空间都不够用了,换了 200G 的方案,希望可以永久一点,或者是,少产生点数据。
大量数据的好处
大数据的意义 > 好算法,大概就是全样本的优势了叭
1.2 数据的存储与分析
数据传输速度没有与时俱进,大容量的硬盘传输时间久
采用并行传输的思想,通过硬盘共享可以解决,有一定的可行性
多个硬盘并行进度读/写数据的问题
并行读写的问题
- 硬件故障
- 避免数据丢失 —— 复制 replication
- 解决方法:HDFS Hadoop Distributed FileSystem
- 数据分析需要结合多个硬盘的数据
- 解决方法:MapReduce