Free性欧美Hd另类_精品亚洲欧美视频在线观看_freesex欧美喷水_字幕av在线_久久久久久国产免费_伊人5566

中培偉業企業IT內訓課程
您現在的位置:首頁 > 企業內訓 > 大數據 > 大數據計算框架Spark+Storm+Flink

大數據計算框架Spark+Storm+Flink

2022-04-29 11:37:03 | 來源:中培企業IT培訓網
一、培訓簡述
全面掌握大數據Spark、Storm和Flink的理論基礎和實現原理,以及基于大數據架構的數據倉庫的實現,通過具體的實操和練習讓學員全面實戰大數據。通過此次課程培訓,可使學習者獲得如下收益:
  • 數據倉庫的核心概念、數據倉庫與大數據
  • 大數據中心平臺的整體架構
  • 徹底理解Spark為代表的大數據處理引擎的運行機制和原理,包括:
    • Spark Core
  • 掌握Spark生態體系架構(原理、安裝、使用),包括:
    • Spark Core、Spark SQL、Spark Streaming
    • Spark Shell、Spark集群、RDD
  • 掌握Spark、Hadoop協同工作,能夠通過Spark、Hadoop輕松應對大數據的業務需求;
  • 掌握以實時計算框Storm為代表的大數據實時計算引擎的運行機制和原理,包括:
    • Storm的體系架構
    • Storm的數據處理流程與編程模型
    • 集成Storm實時計算引擎
  • 掌握Flink的生態圈體系架構,包括:
    • 了解Flink大數據架構,互聯網企業大數據應用
    • 深度了解Flink DataSet API
    • 深度了解DataStream API
    • 集成Kafka與Flink
    • 熟悉Table API
    • 大數據安全認證框架Kerberos。
二、培訓特色
  • PPT+教材+參考資料,理論講解
  • 提供配套的實驗環境
  • 場景+案例+模擬環境,動手實踐
  • 手把手解決問題+解決問題經驗分享。
三、培訓收益
  • 掌握基于大數據的體系架構、管理、部署,以及相應組件的原理和應用場景。
  • 讓學員具備部署基于企業大數據平臺環境的能力。
四、培訓時長
     共計4 天,每天6課時

五、培訓大綱
模塊一:大數據實時計算引擎Storm
練習 學習目標與案例
Storm
  • 大數據實時計算框架簡介
  • Apache Storm體系結構
  • Apache Storm的偽分布模式的搭建
  • Apache Storm的全分布模式和HA
  • Storm的Demo演示
  • Storm集群在ZooKeeper上保存的數據結構
  • WordCount數據流動的過程
  • 開發自己的Storm的WordCount程序
  • 部署和運行Storm任務
  • Storm任務執行的過程與通信機制
  • 流式計算系統的典型的架構與集成Storm
    • 集成Redis
    • 集成HDFS
    • 集成HBase
使用Storm進行大數據的實時計算
  • 掌握Storm的體系架構和功能。
  • 掌握大數據實時計算的典型架構
  • 京東大數據平臺的架構
 
 
模塊二:Spark基礎之Scala編程語言
練習 學習目標與案例
Scala編程語言
  • Scala語言基礎
  • Scala語言的面向對象
  • Scala語言的函數式編程
  • Scala中的集合
  • Scala語言的高級特性
編程Scala程序 掌握Scala編程語言
 
 
模塊三:大數據執行引擎Spark Core
練習 學習目標與案例
Spark Core
  • 什么是Spark?
  • Spark的體系結構與安裝部署
    • Spark的主從架構
    • 什么是ZooKeeper
    • Spark HA的實現
  • 執行Spark Demo程序
  • Spark運行機制及原理分析
  • Spark的算子
  • Spark RDD的高級算子
  • Spark基礎編程案例
  • Spark性能診斷和優化案例
    • 系統死鎖的診斷和分析
    • 系統內存溢出的診斷和分析
  • 案例分享
    • 基于Spark的大數據平臺架構
搭建Spark環境
使用Spark Core處理數據
  • 掌握Spark的體系架構和功能
  • Spark與Hadoop的對比
 
 
 
模塊四:數據分析引擎Spark SQL
練習 學習目標與案例
Spark SQL
  • Spark SQL基礎
    • Spark SQL簡介
    • 基本概念:Datasets和DataFrames
    • 測試數據
    • 創建DataFrames
    • DataFrame操作
    • Global Temporary View
    • 創建Datasets
    • Datasets的操作案例
  • 使用數據源
    • 通用的Load/Save函數
    • Parquet文件
    • JSON Datasets
    • 使用JDBC
    • 使用Hive Table
  • 性能優化
  • 在IDEA中開發Spark SQL程序
使用Spark SQL處理數據
  • 掌握Spark SQL的體系架構和功能。
  • 典型的大數據分析引擎的對比
    • Hive
    • Spark SQL
    • Flink SQL
 
 
模塊五:流式計算引擎Spark Streaming
練習 學習目標與案例
Spark Streaming
  • Spark Streaming基礎
    • Spark Streaming簡介
    • Spark Streaming的特點
    • Spark Streaming的內部結構
    • 第一個小案例:NetworkWordCount
    • 開發自己的NetworkWordCount
  • Spark Streaming進階
    • StreamingContext對象詳解
    • 離散流(DStreams):Discretized Streams
    • DStream中的轉換操作(transformation)
    • 窗口操作
    • 輸入DStreams和接收器
    • DStreams的輸出操作
    • DataFrame和SQL操作
    • 緩存/持久化
    • 檢查點支持
  • 高級數據源
    • Spark Streaming接收Flume數據
    • Spark Streaming接收Kafka數據
  • 性能優化
    • 減少批數據的執行時間
    • 設置正確的批容量
    • 內存調優
使用Spark Streaming處理數據
  • 掌握Spark Streaming的體系架構和功能
  • 典型的大數據實時引擎的對比
    • Storm
    • Spark Streaming
    • Flink DataStream
 
 
模塊六:機器學習MLLib
練習 學習目標與案例
Spark  MLLib
  • 什么是MLLib?
  • MLLib中的常見算法
  • MLlib的應用案例:推薦系統的實現
    • 基于用戶的協同過濾
    • 基于物品的協同過濾
    • 基于ALS的協同過濾
    • 邏輯回歸算法
  掌握電商環境中推薦系統的實現。
 
 
模塊七:新一代大數據處理引擎Flink
練習 學習目標與案例
第3章:Flink的體系架構與部署
  • Flink簡介
  • Flink的體系架構
  • Flink的安裝與部署
  • Flink的分布式緩存
  • 對比:Flink、Storm和Spark Streaming
安裝與部署Flink環境 掌握Flink的體系架構與生態圈組件
第4章:Flink on Yarn的實現
  • 什么是Yarn?與Yarn的體系架構
  • 部署Yarn
  • Flink on Yarn的兩種模式
    • 內存集中管理模式
    • 內存Job管理模式
  • Flink on Yarn兩種模式的區別
部署Flink on Yarn 理解并掌握Flink on Yarn的兩種模式的特點
第5章:Flink HA的實現
  • 什么是HA?為什么需要HA?
  • 大數據分布式協調框架ZooKeeper
    • 什么是ZooKeeper
    • 搭建ZooKeeper環境
    • ZooKeeper的特性
    • 實現分布式鎖
  • 部署Flink HA高可用架構環境
部署Flink HA環境 什么是HA?Flink HA的架構
第6章:Flink開發入門
  • Flink批處理開發
    • Java版本WordCount
    • Scala版本WordCount
  • Flink流處理開發
    • Java版本WordCount
    • Scala版本WordCount
  • 使用Flink Scala Shell
  • Flink的并行度分析
搭建Flink開發環境并開發應用程序 掌握基本的Flink API編程
第7章:Flink DataSet API開發
  • Map、FlatMap與MapPartition
  • Filter與Distinct
  • Join操作
  • 笛卡爾積
  • First-N
  • 外鏈接操作
基于DataSet API開發Flink離線計算應用 掌握常用的Flink DataSet API算子的作用
第8章:Flink DataStreaming API開發
  • DataSources
    • 基本的數據源示例
    • 自定義數據源
    • 內置的Connector
  • DataStream Transformation 轉換操作
  • Data Sinks
  • 集成Flink與Kafka
基于DataSet Stream開發Flink離線計算應用 掌握常用的Flink DataStream API算子的作用
第9章:狀態管理和恢復
  • 狀態:State
    • Keyed State
    • Operator State
  • 檢查點:Checkpoint
    • 檢查點的配置:
    • state backend存儲模式
    • 修改State Backend的兩種方式
    • 示例
  • Restart Strategies(重啟策略)
開發應用進行Flink的有狀態計算 理解并掌握Flink的狀態管理機制
第10章:Window和Time
  • 窗口:Window
    • Time Window示例
    • Count Window示例
  • Time:時間
  • WaterMark:水位線
    • Watermark的原理
    • Watermark的三種使用情況
    • 設置Watermark的核心代碼
    • 窗口的allowedLateness
  什么是Flink的窗口操作
第11章:Flink Table & SQL
  • Flink Table & SQL簡介
  • 開發Flink Table & SQL程序
  • 使用Flink SQL Client
使用Flink SQL分析處理數據 掌握Flink的數據分析模塊
         
 
 
模塊八:大數據安全認證框架
練習 學習目標與案例
第1章:大數據安全框架
  • 大數據安全問題
  • 大數據安全管控措施
  • Kerberos安全認證機制
  • Sentry安全授權組件
   
 
(注:大綱還可根據需求進行調整)

主站蜘蛛池模板: 呦一呦二在线精品视频 | 中文字幕久久一区 | 国产真实老熟女无套内射 | 曰本一道本久久88不卡 | 国产一级特黄录像片 | 中文日韩在线 | 小嫩妇好紧好爽再快视频 | 成人精品一区二区91毛片不卡 | 稀缺小u女呦精品呦免费 | 久久精品国产清自在天天线 | 国产精品99无码一区二区 | 亚洲AV成人一区二区三区网站 | 国产精品久久久高清免费 | 无遮挡边摸边吃奶边做视频免费 | av无码一区二区三区午夜 | 欧美成人va免费大片视频 | 6699嫩草久久久精品影院 | 国产肉体XXXX裸体XXXX | 国产日韩精品一区二区在线观看播放 | 黄色一级片免费的 | 久久久久久99av无码免费网站 | 国产色av | 国产精品一区二区在线免费观看 | 久久久久久久中文 | 亚洲综合欧美色五月俺也去 | www.日韩在线 | 69午夜免费福利 | 殴美性猛交 | 91视频国 | 国产欧美大片 | 国产精品福利视频一区 | 久久国产免费观看 | 国产精品青草国产一区二区 | 黄色毛片网站 | 久久综合五月丁香六月丁香 | 浮生影院免费观看中文版 | а天堂中文在线官网 | 丰满岳跪趴高撅肥臀尤物在线观看 | 国产亚洲精品久久久久久牛牛 | 韩国专线一区二三区 | 遮天在哪个软件可以免费阅读 |