大數據分析
hadoop就是一個生態圈,它是HDFS 、MapReduce 、Hive和ZooKeeper等組成,一系列的運行就像一條生態鏈。
1)Pig:一個基于Hadoop的大規模數據分析平臺,為海量數據的并行計算,提供了一個簡單的操作和編程接口
2)Hive:就是一個工具,有完整的SQL查詢的功能,可以將sql語句轉換為MapReduce任務進行運行 ,當然也要基于hadoop
3)ZooKeeper:高效的,可拓展的協調系統,存儲和協調關鍵共享狀態
4)HBase:一個開源的,基于列存儲模型的分布式數據庫
5)HDFS:一個分布式文件系統,有著高容錯性的特點,適合那些超大數據集的應用程序;
6)MapReduce:一種編程模型,用于大規模數據集(大于1TB)的并行運算