hadoop框架? hadoop特性?
一、hadoop框架?
Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。
用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力進行高速運算和存儲。
Hadoop實現了一個分布式文件系統(Hadoop Distributed File System),簡稱HDFS。HDFS有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數據,適合那些有著超大數據集(large data set)的應用程序。
二、hadoop特性?
hadoop是一個能夠對大量數據進行分布式處理的軟件框架,并且是一種可靠,高效,可伸縮的方式進行處理的,它有一下幾方面特性:
1.高可靠性:采用冗余數據存貯方式,即使一個副本發生故障,其他副本也可以保證對外工作的正常進行。
2.高效性:作為并行分布式計算平臺,hadoop采用分布式存貯和分布式處理兩大核心技術,能夠高效的處理PB級別的數據
3.高可擴展性:hadoop的設計目標是可以高效穩定的運行在廉價的計算機集群上,可以擴展到數以千計的計算機節點上。
4.高容錯性:采用冗余數據存貯方式,自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。
5.成本低:hadoop采用廉價的計算機集群,普通的用戶也可以pc機搭建環境
6.運行在linux平臺上,hadoop是基于java語言開發的,可以較好的運行在linux的平臺上
7.支持多種編程語言,如:C++等/
三、hadoop之父?
Hadoop之父Doug Cutting
Doug Cutting 看到他兒子在牙牙學語時,抱著黃色小象,親昵的叫?hadoop,他靈光一閃,就把這技術命名為?Hadoop,而且還用了黃色小象作為標示?Logo,不過,事實上的小象瘦瘦長長,不像?Logo?上呈現的那么圓胖?!拔覂鹤蝇F在?17?歲了,所以就把小象給我了,有活動時就帶著小象出席,沒活動時,小象就丟在家里放襪子的抽屜里。
四、hadoop功能介紹?
Hadoop是大數據處理框架,工具
hdfs和mapReduce是Hadoop的兩個原始核心功能,前者是負責儲存的系統,類似把試卷放在幾個柜子里,后者負責并行計算,類似把100份試卷分給5個人批改。
Hadoop后來逐漸加了其他工具
hive提供數據匯總查詢功能,給了一個窗口處理數據,對數據進行加減乘除。
hbase是一個可擴展的、非關系型數據庫,不是傳統的excel表那種的數據格式
spark是比mapReduce更快的計算框架
Hadoop和mysql的關系是“Friends with benefits”
Hadoop的并行處理系統加上mysql的快速處理大量數據能力,就能得到一個能夠使用關系型數據并以巨大速度進行計算的數據庫。
五、hadoop 存儲原理?
hadoop原理:
其最底部是 Hadoop Distributed File System(HDFS),它存儲 Hadoop 集群中所有存儲節點上的文件。HDFS的上一層是MapReduce引擎,該引擎由 JobTrackers 和 TaskTrackers組成。通過對Hadoop分布式計算平臺最核心的分布式文件系統HDFS、MapReduce處理過程,以及數據倉庫工具Hive和分布式數據庫Hbase的介紹,基本涵蓋了Hadoop分布式平臺的所有技術核心。
六、什么是hadoop?
Hadoop是Apache基金會開發的分布式系統基礎架構
Hadoop主要被用來解決海量數據的存儲和海量數據的分析計算
廣義上來說,Hadoop通常是指一個更廣泛的概念----Hadoop生態圈
七、hadoop重要組成?
Hadoop的組成主要分為三個部分,分別為最著名的分布式文件系統(HDFS)、MapReduce框架、儲存系統(HBase)等組件。
HDFS:數據切割、制作副本、分散儲存
HDFS會把一個文檔切割成好幾個小區塊、制作副本,然后在Hadoop的服務器群集中跨多臺計算機儲存副本,文檔副本通常預設為3份,該設定可以自行更改。除此之外,HDFS的理念是其認為移動運算到數據端通常比移動數據到運算端來得成本低,這是由于數據的位置信息會被考慮在內,因此運算作業可以移至數據所在位置。
MapReduce:拆解任務、分散處理、匯整結果
八、hadoop的特性?
hadoop是一個能夠對大量數據進行分布式處理的軟件框架,并且是一種可靠,高效,可伸縮的方式進行處理的,它有以下幾方面特性:
1.高可靠性:采用冗余數據存貯方式,即使一個副本發生故障,其他副本也可以保證對外工作的正常進行。
2.高效性:作為并行分布式計算平臺,hadoop采用分布式存貯和分布式處理兩大核心技術,能夠高效的處理PB級別的數據
3.高可擴展性:hadoop的設計目標是可以高效穩定的運行在廉價的計算機集群上,可以擴展到數以千計的計算機節點上。
4.高容錯性:采用冗余數據存貯方式,自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。
5.成本低:hadoop采用廉價的計算機集群,普通的用戶也可以pc機搭建環境
6.運行在linux平臺上,hadoop是基于java語言開發的,可以較好的運行在linux的平臺上
7.支持多種編程語言,如:C++等/
九、Hadoop是什么?
Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力進行高速運算和存儲。
Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,而MapReduce則為海量的數據提供了計算。
十、hadoop常用版本?
Hadoop各主流版本的介紹
Apache Hadoop2.0版本,有以下模塊: Hadoop通用模塊,支持其他Hadoop模塊的通用工具集; Hadoop分布式文件系統(HDFS),支持對應用數據高吞吐量訪問的分布式文件系統; Hadoop YARN,用于作業調度和集群資源管理的框架; Hadoop MapReduce,基于YARN的大數據并行處理系統。 Hadoop目前除了社區版,還有眾多廠商的發行版本。
Cloudera:最成型的發行版本,擁有最多的部署案例;提供強大的部署、管理和監控工具。開發并貢獻了可實時處理大數據的Impala項目。
Hortonworks:100%開源的Apache Hadoop唯一提供商。Hortonworks是第一家使用了Apache HCatalog的元數據服務特性的提供商。而且,他們的Stinger極大地優化了Hive項目。Hortonworks為人們提供了一個非常好的、易于使用的沙盒。Hortonworks開發了很多增強特性并提交至核心主干,這使得Apache Hadoop能夠在包括Windows Servers和Windows Azure在內的Microsoft Windows平臺上本地運行。
MapR:與競爭者相比,它使用了一些不同的概念,特別是為了獲取更好的性能和
本網站文章僅供交流學習 ,不作為商用, 版權歸屬原作者,部分文章推送時未能及時與原作者取得聯系,若來源標注錯誤或侵犯到您的權益煩請告知,我們將立即刪除.