培訓背景
隨著社交網絡日益發展,人們樂于在社交網絡上分享自己的生活,拓展自己的人脈。這一系列活動背后,是基于社交網絡的巨大數據。然而,人們對社交網絡數據的挖掘和分析都還處于相對初級的階段,大規模、高維度數據的挖掘方法還在不斷地演化。隨著信息技術的迅猛發展,參與到社交網絡的人越來越多,人們樂于在網絡中去分享自己的相關信息,拓展自己的人脈。文本挖掘為何如此重要呢?據普遍估計,在所有與業務有關的信息中,有80%的信息是非結構化文本數據和半結構化文本數據。換言之,如果不對這80%的信息所代表的大量數據應用文本分析,所有嵌入的業務信息和消費者行為數據都會被浪費。術語文本挖掘常常被稱為文本分析具有很多的實際意義,比如垃圾過濾、從電子商務網站上的意見和建議中提取信息、在博客和評論網站中進行社交收聽和意見挖掘、增強客戶服務和電子郵件支持、業務文檔的自動化處理、法律領域的電子發現、衡量消費者的偏好、索賠分析和欺詐檢測,企業甚至能通過社交平臺去直接影響客戶,一切都似乎因為社交網絡的出現而變的美好。
培訓收益
1.本課程盡量避開數學公式,按照“講清思想方法原理—結合具體案例—R語言實現細節”思路,讓即使是幾乎沒有什么基礎的學員,掌握R語言數據挖掘的基本思路和模式,打下未來深入的良好基礎,能在工作和學習中結合具體問題立馬上手操作解決;
2.課程注重學練結合的方法,會采取小組討論的方法,充分調動大家思考的積極性,在做中掌握相關知識和技能;
3.課程緊緊抓住R語言和數據挖掘的重點和難點,詳細的分析和講解,在理解難、容易出錯的地方反復提醒,以便學員在課后容易的進行自己復習和相關拓展;
4.本課程讓學員領略大數據技術的魅力和廣闊前景,使學員掌握主流的大數據(包括結構化、半結構化和非結構化數據)的表示、建模、存儲、管理、分析處理、挖掘、推薦技術、匹配技術與關聯分析技術,以及機器學習平臺的原理與應用實戰;
5.課程緊密結合行業市場需求和國際國內最新技術發展潮流,讓學員掌握大數據分析挖掘平臺架構和應用部署,分享成功的大數據應用項目實施經驗,學習大數據分析應用項目解決方案咨詢服務;
6.讓學員掌握常見的大數據分析方法和數據挖掘算法使用方法,以及大數據開發與運維技術。讓學員掌握基于Hadoop大數據平臺的數據挖掘平臺Mahout、MLbase機器學習算法庫應用、數據倉庫HIVE、實時分析平臺Spark、實時挖掘平臺Shark、分布式機器學習與推薦系統平臺Oryx的入門、中級以及高級應用,并對主流的大數據分析建模與挖掘推薦平臺產品剖析。
培訓特色
本課程讓學員領略大數據技術的魅力和廣闊前景,使學員掌握社交網絡與文本挖掘技術的分析能力增強對社交網絡數據和文本的分析能力。
課程大綱
日程 | 培訓模塊 | 內容 |
---|---|---|
第一天 上午 |
大數據概述 | 1.大數據基本概念、技術梗概、技術沿革,以及大數據技術是如何改變人工智能技術、語音識別技術、圖像識別/視頻理解、自然語言處理技術等,以及大數據技術在政府、金融、石油、教育、交通、醫療衛生等行業的成功案例; 2.大數據的結構化數據模型、半結構化模型和非結構化數據的存儲模型,邏輯模型,以及分析建模工具的常用方法。 |
數據挖掘及Mahout | 1.十大常用的并行數據挖掘算法、原理、應用場景,以及技術實戰; 2.并行數據挖掘平臺Mahout的技術架構、核心組件的工作原理以及技術; 3.Mahout應用開發技術; 4.Mahout項目實戰。 |
|
第一天 下午 |
R語言精要 | 本著循序漸進而又覆蓋R語言重要而有用的基本內容原則,本講從R語言入門開始,以前期的數據處理為核心,以實際案例為載體,內容包括R語言的向量、數據框、矩陣運算、缺失值和零值的處理、特別注重用R語言構造函數編程解決實際問題,詳細介紹強大的數據清洗整理plyr、zoo、car等常用包和強大的作圖ggplot2包,為使用R語言進行數據挖掘打下扎實的工具基礎。 主要案例: 案例1:如何用R語言plyr等包合并、排序、分析數據并編制香農-威納指數; 案例2:如何用R語言編程同時實現幾十個高難度數據分析可視化圖片的jpeg格式輸出; 案例3:如何使用R語言進行分層或者整群抽樣構建訓練集與測試集; 案例4:使用ggplot2畫出各種復雜的圖形。 |
第二天 上午 |
神經網絡和 R語言的實現 |
神經網絡由大量的節點和輸出函數構成邏輯策略,本講介紹其原理,主要通過案例的方式講解R語言實現神經網絡算法的過程和注意的事項。 主要案例: 案例1:酒的品質和種類的神經網絡的分析和預測; 案例2:公司財務預警建模。 |
企業基于社交網絡數據的收獲 | 1.潛在商機的發現,通過數據挖掘與分析能夠得到什么? 2.危機預警 ,通過數據挖掘與分析,可以對一些網絡中突然發布的一條可能對企業產生危機的信息即時的監控; 3.效果預測, 通過數據挖掘與分析讓企業能花最少的錢得到最大的產出。 |
|
第二天 下午 |
交叉驗證比較各個模型 | 對于同一個數據,可能有很多模型來擬合,如何衡量和比較模型的精度呢?本講將介紹交叉驗證訓練集和測試集的方法來幫助大家在實際中選取最佳模型進行擬合和預測。 |
第三天 上午 |
決策樹(回歸樹)分析 和R語言實現 |
決策樹是數據挖掘的經典方法,其原理容易被理解。本講主要講授兩種最為普遍的決策樹算法:CART和C4.5算法,使用rpart和J48函數進行R語言分析。 主要案例: 案例1:對汽車耗油量進行決策樹分析并完成相關目標變量的預測; 案例2:使用決策樹幫助電信局判斷和預測客戶辦理寬帶業務。 |
第三天 下午 |
使用R語言結合KNN 算法進行文本挖掘 |
文本挖掘,特別是對中文的文本挖掘日趨重要。本講介紹文本挖掘的原理和方法,幫助大家使用R語言在大量的非結構化的數據中發現有價值的信息,抽取潛在有用的數據,發現適合模式,實現可視化結果展示。 主要案例: 案例:使用R語言結合KNN算法對網頁(Web)進行文本挖掘(含分詞、分類、可視化等)。 |