您現(xiàn)在的位置：首頁 > IT資訊 > 大數(shù)據(jù) > 【專家視點】詳解Spark架構(gòu)的性能與應(yīng)用

【專家視點】詳解Spark架構(gòu)的性能與應(yīng)用

2017-01-20 11:47:59　|　來源：中培企業(yè)IT培訓網(wǎng)

Spark作為UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行計算框架，其基于map reduce算法實現(xiàn)的分布式計算，有Hadoop MapReduce所具有的優(yōu)點；但不同于MapReduce的是Job中間輸出和結(jié)果可以保存在內(nèi)存中，從而不再需要讀寫HDFS，因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的map reduce的算法。其架構(gòu)如下圖所示：spark-framwork

Spark與Hadoop的比較

Spark的中間數(shù)據(jù)放到內(nèi)存中，對于迭代運算效率更高。 ?Spark更適合于迭代運算比較多的MLDM運算。因為在Spark里面，有RDD的抽象概念。

SparkHadoop更通用。 ?Spark提供的數(shù)據(jù)集操作類型有很多種，不像Hadoop只提供了MapReduce兩種操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多種操作類型，Spark把這些操作稱為Transformations。同時還提供Count, collect, reduce, lookup, save等多種actions操作。

這些多種多樣的數(shù)據(jù)集操作類型，給給開發(fā)上層應(yīng)用的用戶提供了方便。各個處理節(jié)點之間的通信模型不再像Hadoop那樣就是唯一的Data Shuffle一種模式。用戶可以命名，物化，控制中間結(jié)果的存儲、分區(qū)等。可以說編程模型比Hadoop更靈活。

不過由于RDD的特性，Spark不適用那種異步細粒度更新狀態(tài)的應(yīng)用，例如web服務(wù)的存儲或者是增量的web爬蟲和索引。就是對于那種增量修改的應(yīng)用模型不適合。

容錯性。在分布式數(shù)據(jù)集計算時通過checkpoint來實現(xiàn)容錯，而checkpoint有兩種方式，一個是checkpoint data，一個是logging the updates。用戶可以控制采用哪種方式來實現(xiàn)容錯。

可用性。 ?Spark通過提供豐富的Scala, JavaPython API及交互式Shell來提高可用性。

Spark與Hadoop的結(jié)合

Spark可以直接對HDFS進行數(shù)據(jù)的讀寫，同樣支持Spark on YARNSpark可以與MapReduce運行于同集群中，共享存儲資源與計算，數(shù)據(jù)倉庫Shark實現(xiàn)上借用Hive，幾乎與Hive完全兼容。

Spark的適用場景

Spark是基于內(nèi)存的迭代計算框架，適用于需要多次操作特定數(shù)據(jù)集的應(yīng)用場合。需要反復(fù)操作的次數(shù)越多，所需讀取的數(shù)據(jù)量越大，受益越大，數(shù)據(jù)量小但是計算密集度較大的場合，受益就相對較小

由于RDD的特性，Spark不適用那種異步細粒度更新狀態(tài)的應(yīng)用，例如web服務(wù)的存儲或者是增量的web爬蟲和索引。就是對于那種增量修改的應(yīng)用模型不適合。

總之Spark作為一種非常高校的分布式計算系統(tǒng)，其在互聯(lián)網(wǎng)行業(yè)當中擁有十分廣泛和通用的應(yīng)用前景。

標簽： Spark

上一篇：2017年將面臨的6個云計算技術(shù)課題
下一篇：【專家視點】盤點2016年云計算領(lǐng)域10大事件

Free性欧美Hd另类_精品亚洲欧美视频在线观看_freesex欧美喷水_字幕av在线_久久久久久国产免费_伊人5566

一站式企業(yè)數(shù)字化人才培養(yǎng)提供商

【專家視點】詳解Spark架構(gòu)的性能與應(yīng)用

相關(guān)閱讀

DAMA國際數(shù)據(jù)管理專業(yè)人士CDMP認證&DAMA中國數(shù)據(jù)治理工程師CDGA認證

國家注冊信息安全專業(yè)人員CISP-PTE滲透測試工程師認證

國家注冊信息安全專業(yè)人員CISP認證

DAMA中國數(shù)據(jù)治理專家CDGP認證

PMP項目管理國際認證

全國報名服務(wù)熱線

熱門課程咨詢

微信公眾號