1.1 什么是Hadoop

  • Hadoop名字的由来

    • 作者:Doug cutting
    • Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名

  • Hadoop的概念:

    • The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.(开源的分布式存储和分布式计算平台)
    • The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.
  • Hadoop能做什么?

    • 搭建大型数据仓库
    • PB级数据的存储 处理 分析 统计等业务
      • 搜索引擎
      • 日志分析
      • 数据挖掘
      • 商业智能
  • Hadoop发展史

    • 2003-2004年 Google发表了三篇论文

      • GFS:Google的分布式文件系统Google File System
      • MapReduce: Simplified Data Processing on Large Clusters
      • BigTable:一个大型的分布式数据库
    • 2006年2月Hadoop成为Apache的独立开源项目( Doug Cutting等人实现了DFS和MapReduce机制)。

    • 2006年4月— 标准排序(10 GB每个节点)在188个节点上运行47.9个小时。

    • 2008年4月— 赢得世界最快1TB数据排序在900个节点上用时209秒。

    • 2008年9月— Hive成为Hadoop的子项目

    • 2008年— 淘宝开始投入研究基于Hadoop的系统–云梯。云梯总容量约9.3PB,共有1100台机器,每天处理18000道作业,扫描500TB数据。

    • 2009年3月— Cloudera推出CDH(Cloudera’s Dsitribution Including Apache Hadoop)

    • 2009年5月— Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。

    • 2009年7月— Hadoop Core项目更名为Hadoop Common;

    • 2009年7月— MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。

    • 2012年11月— Apache Hadoop 1.0 Available

    • 2017年12月— Apache Hadoop 3.0 Available

    • 2018年4月— Apache Hadoop 3.1 Available

results matching ""

    No results matching ""