課程描述INTRODUCTION
全國高校大數(shù)據(jù)(Hadoop、spark、Python)師資培訓(xùn)
日程安排SCHEDULE
課程大綱Syllabus
全國高校大數(shù)據(jù)(Hadoop、spark、Python)師資培訓(xùn)
一、課程介紹
Hadoop板塊
1.需求理解
Hadoop設(shè)計之初的目標(biāo)就定位于高可靠性、高可拓展性、高容錯性和高效性,正是這些設(shè)計上與生俱來的優(yōu)點,才使得Hadoop一出現(xiàn)就受到眾多大公司的青睞,同時也引起了研究界的普遍關(guān)注。
對電信運營商而言,用戶上網(wǎng)日志包含了大量用戶個性化需求、喜好信息,對其進行分析和挖掘,能更好地了解客戶需求。傳統(tǒng)經(jīng)營分析系統(tǒng)小型機加關(guān)系型數(shù)據(jù)庫的架構(gòu)無法滿足對海量非結(jié)構(gòu)化數(shù)據(jù)的處理需求,搭建基于X86的Hadoop平臺,引入大數(shù)據(jù)處理技術(shù)的方式,實現(xiàn)高效率、低成本、易擴展的經(jīng)營分析系統(tǒng)混搭架構(gòu)成為電信運營商最為傾向的選擇。本課程將全面介紹Hadoop平臺開發(fā)和運維的各項技術(shù),對學(xué)員使用該項技術(shù)具有很高的應(yīng)用價值。
2.培訓(xùn)課程架構(gòu)與設(shè)計思路
(1)培訓(xùn)架構(gòu):
本課程分為三個主要部分:
第一部分:重點講述大數(shù)據(jù)技術(shù)在的應(yīng)用,使學(xué)員對大數(shù)據(jù)技術(shù)的廣泛應(yīng)用有清晰的認識,在這環(huán)節(jié)當(dāng)中會重點介紹Hadoop技術(shù)在整個大數(shù)據(jù)技術(shù)應(yīng)用中的重要地位和應(yīng)用情況。
第二部分:具體對hadoop技術(shù)進行模塊化分拆,從大數(shù)據(jù)文件存儲系統(tǒng)技術(shù)和分布式文件系統(tǒng)平臺及其應(yīng)用談起,介紹Hadoop技術(shù)各主要應(yīng)用工具和方法,以及在運維維護當(dāng)中的主流做法,使學(xué)員全面了解和掌握Hadoop技術(shù)的精華。
第三部分:重點剖析大數(shù)據(jù)的應(yīng)用案例,使學(xué)員在案例當(dāng)中對該項技術(shù)有更深入的感觀印象
(2)設(shè)計思路:
本課程采用模塊化教學(xué)方法,以案例分析為主線,由淺入深、循序漸進、由理論到實踐操作進行設(shè)計。
(3)與企業(yè)的貼合點:
本課程結(jié)合企業(yè)轉(zhuǎn)型發(fā)展及大數(shù)據(jù)發(fā)展戰(zhàn)略,圍繞企業(yè)大數(shù)據(jù)業(yè)務(wù)及行業(yè)應(yīng)用市場拓展發(fā)展目標(biāo),重點講授Hadoop的應(yīng)用技術(shù),提升企業(yè)IT技術(shù)人員的開發(fā)和運維能力,有很強的貼合度。
大數(shù)據(jù)建模與挖掘板塊
本次課程面向有一定的數(shù)據(jù)分析挖掘算法基礎(chǔ)的工程師,帶大家實踐大數(shù)據(jù)分析挖掘平臺的項目訓(xùn)練,系統(tǒng)地講解數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)建模、挖掘模型建立、大數(shù)據(jù)分析與挖掘算法應(yīng)用在業(yè)務(wù)模型中,結(jié)合主流的Hadoop與Spark大數(shù)據(jù)分析平臺架構(gòu),實現(xiàn)項目訓(xùn)練。
結(jié)合業(yè)界使用最廣泛的主流大數(shù)據(jù)平臺技術(shù),重點剖析基于大數(shù)據(jù)分析算法與BI技術(shù)應(yīng)用,包括分類算法、聚類算法、預(yù)測分析算法、推薦分析模型等在業(yè)務(wù)中的實踐應(yīng)用,并根據(jù)講師給定的數(shù)據(jù)集,實現(xiàn)兩個基本的日志數(shù)據(jù)分析挖掘系統(tǒng),以及電商(或內(nèi)容)推薦系統(tǒng)引擎。
本課程基本的實踐環(huán)境是Linux集群,JDK1.8,Hadoop2.7.*,Spark2.1.*。
學(xué)員需要準(zhǔn)備的電腦最好是i5及以上CPU,4GB及以上內(nèi)存,硬盤空間預(yù)留50GB(可用移動硬盤),基本的大數(shù)據(jù)分析平臺所依賴的軟件包和依賴庫等,講師已經(jīng)提前部署在虛擬機鏡像(VMware鏡像),學(xué)員根據(jù)講師的操作任務(wù)進行實踐。
本課程采用技術(shù)原理與項目實戰(zhàn)相結(jié)合的方式進行教學(xué),在講授原理的過程中,穿插實際的系統(tǒng)操作,本課程講師也精心準(zhǔn)備的實際的應(yīng)用案例供學(xué)員動手訓(xùn)練。
Python機器學(xué)習(xí)板塊
1.每個算法模塊按照“原理講解→分析數(shù)據(jù)→自己動手實現(xiàn)→特征與調(diào)參”的順序。
2.“Python數(shù)據(jù)清洗和特征提取”,提升學(xué)習(xí)深度、降低學(xué)習(xí)坡度。
3.增加網(wǎng)絡(luò)爬蟲的原理和編寫,從獲取數(shù)據(jù)開始,重視將實踐問題轉(zhuǎn)換成實際模型的能力,分享工作中的實際案例或Kaggle案例:廣告銷量分析、環(huán)境數(shù)據(jù)異常檢測和分析、數(shù)字圖像手寫體識別、Titanic乘客存活率預(yù)測、用戶-電影推薦、真實新聞組數(shù)據(jù)主題分析、中文分詞、股票數(shù)據(jù)特征分析等。
4.強化矩陣運算、概率論、數(shù)理統(tǒng)計的知識運用,掌握機器學(xué)習(xí)根本。
5.闡述機器學(xué)習(xí)原理,提供配套源碼和數(shù)據(jù)。
6.以直觀解釋,增強感性理解。
7.對比不同的特征選擇帶來的預(yù)測效果差異。
8.重視項目實踐,重視落地。思考不同算法之間的區(qū)別和聯(lián)系,提高在實際工作中選擇算法的能力。
9.涉及和講解的部分Python庫有:Numpy、Scipy、matplotlib、Pandas、scikit-learn、XGBoost、libSVM、LDA、Gensim、NLTK、HMMLearn。
二、培訓(xùn)對象:各地高校大數(shù)據(jù)產(chǎn)業(yè)相關(guān)講師,信息中心相關(guān)人員、系主任、院長或?qū)Υ髷?shù)據(jù)感興趣的相關(guān)人員。
三、培訓(xùn)目標(biāo)
掌握大數(shù)據(jù)處理平臺(Hadoop、Spark、Storm)技術(shù)架構(gòu)、以及平臺的安裝部署、運維配置、應(yīng)用開發(fā);掌握主流大數(shù)據(jù)Hadoop平臺和Spark實時處理平臺的技術(shù)架構(gòu)和實際應(yīng)用;利用Hadoop+Spark對行業(yè)大數(shù)據(jù)進行存儲管理和分析挖掘的技術(shù)應(yīng)用;講解Hadoop生態(tài)系統(tǒng)組件,包括Storm,HDFS,MapReduce,HIVE,Hbase,Spark,GraphX,MLib,Shark,ElasticSearch等大數(shù)據(jù)存儲管理、分布式數(shù)據(jù)庫、大型數(shù)據(jù)倉庫、大數(shù)據(jù)查詢與搜索、大數(shù)據(jù)分析挖掘與分布式處理技術(shù)
讓學(xué)員充分掌握大數(shù)據(jù)平臺技術(shù)架構(gòu)、大數(shù)據(jù)分析的基本理論、機器學(xué)習(xí)的常用算法、國內(nèi)外主流的大數(shù)據(jù)分析與BI商業(yè)智能分析解決方案、以及大數(shù)據(jù)分析在搜索引擎、廣告服務(wù)推薦、電商數(shù)據(jù)分析、金融客戶分析方面的應(yīng)用案例。
強調(diào)主流的大數(shù)據(jù)分析挖掘算法技術(shù)的應(yīng)用和分析平臺的實施,讓學(xué)員掌握主流的基于大數(shù)據(jù)Hadoop和Spark、R的大數(shù)據(jù)分析平臺架構(gòu)和實際應(yīng)用,并用結(jié)合實際的生產(chǎn)系統(tǒng)案例進行教學(xué),掌握基于Hadoop大數(shù)據(jù)平臺的數(shù)據(jù)挖掘和數(shù)據(jù)倉庫分布式系統(tǒng)平臺應(yīng)用,以及商業(yè)和開源的數(shù)據(jù)分析產(chǎn)品加上Hadoop平臺形成大數(shù)據(jù)分析平臺的應(yīng)用剖析。
讓學(xué)員掌握常見的機器學(xué)習(xí)算法,深入講解業(yè)界成熟的大數(shù)據(jù)分析挖掘與BI平臺的實踐應(yīng)用,并以客戶分析系統(tǒng)、日志分析和電商推薦系統(tǒng)為案例,串聯(lián)常用的數(shù)據(jù)挖掘技術(shù)進行應(yīng)用教學(xué)。
從數(shù)學(xué)層面推導(dǎo)最經(jīng)典的機器學(xué)習(xí)算法,以及每種算法的示例和代碼實現(xiàn)(Python)、如何做算法的參數(shù)調(diào)試、以實際應(yīng)用案例分析各種算法的選擇等。
四、培訓(xùn)大綱
模塊一:移動互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算相關(guān)技術(shù)介紹
1、數(shù)據(jù)中心與云計算技術(shù)應(yīng)用
2、智慧城市與云計算技術(shù)應(yīng)用
3、移動互聯(lián)網(wǎng)、大數(shù)據(jù)與云計算關(guān)聯(lián)技術(shù)
4、移動云計算的生態(tài)系統(tǒng)及產(chǎn)業(yè)鏈
5、大數(shù)據(jù)技術(shù)在運營商、金融業(yè)、銀行業(yè)、電子商務(wù)行業(yè)、零售業(yè)、制造業(yè)、政務(wù)信息化、互聯(lián)網(wǎng)、教育信息化等行業(yè)中的應(yīng)用實踐
6、國內(nèi)外主流的大數(shù)據(jù)解決方案介紹
7、當(dāng)前大數(shù)據(jù)解決方案與傳統(tǒng)數(shù)據(jù)庫方案的剖析比較8、ClouderaHadoop大數(shù)據(jù)平臺方案剖析9、開源的大數(shù)據(jù)生態(tài)系統(tǒng)平臺剖析
模塊二:大數(shù)據(jù)的挑戰(zhàn)和發(fā)展方向
1、大數(shù)據(jù)時代的挑戰(zhàn)
.戰(zhàn)略決策能力
.技術(shù)開發(fā)和數(shù)據(jù)處理能力
.組織和運營能力
2、大數(shù)據(jù)時代的發(fā)展方向
.云計算是基礎(chǔ)設(shè)施架構(gòu)
.大數(shù)據(jù)是靈魂資產(chǎn)
.分析、挖掘是手段
.發(fā)現(xiàn)和預(yù)測是最終目標(biāo)
3、大數(shù)據(jù)挖掘在各行業(yè)應(yīng)用情況
.電信行業(yè)應(yīng)用及案例分析
.互聯(lián)網(wǎng)行業(yè)應(yīng)用及案例分析
.金融行業(yè)應(yīng)用及案例研究
.銷售行業(yè)應(yīng)用案例分析
模塊三:大數(shù)據(jù)文件存儲系統(tǒng)技術(shù)和分布式文件系統(tǒng)平臺及其應(yīng)用
1、Hadoop的發(fā)展歷程
.Hadoop大數(shù)據(jù)平臺架構(gòu)
.基于Hadoop平臺的PB級大數(shù)據(jù)存儲管理與分析處理的工作原理與機制
.Hadoop的核心組件剖析
2、分布式文件系統(tǒng)HDFS
.概述、功能、作用、優(yōu)勢
.應(yīng)用范疇、應(yīng)用現(xiàn)狀
.發(fā)展趨勢
3、分布式文件系統(tǒng)HDFS架構(gòu)及原理
.核心關(guān)鍵技術(shù)
.設(shè)計精髓
.基本工作原理
.系統(tǒng)架構(gòu)
.文件存儲模式
.工作機制
.存儲擴容與吞吐性能擴展
4、分布式文件系統(tǒng)HDFS操作
.SHELL命令操作
.I/O流式操作
.文件數(shù)據(jù)讀取、寫入、追加、刪除
.文件狀態(tài)查詢
.數(shù)據(jù)塊分布機制
.數(shù)據(jù)同步與一致性
.元數(shù)據(jù)管理技術(shù)
.主節(jié)點與從節(jié)點工作機制
.大數(shù)據(jù)負載均衡技術(shù)
.HDFS大數(shù)據(jù)存儲集群管理技術(shù)
5、Hadoop生態(tài)系統(tǒng)組件
.Storm
.HDFS
.MapReduce
.HIVE.Hbase
.Spark
.GraphX
.MLib
.Shark
模塊四:Hadoop文件系統(tǒng)HDFS*實戰(zhàn)
1、HDFS的設(shè)計
2、HDFS的概念
.數(shù)據(jù)塊
.namenode和datanode
.聯(lián)邦HDFS.HDFS的高可用性
3、命令行接口
4、Hadoop文件系統(tǒng)
5、Java接口
.從HadoopURL讀取數(shù)據(jù)
.通過FileSystemAPI讀取數(shù)據(jù)
.寫入數(shù)據(jù)
.目錄
.查詢文件系統(tǒng)
.刪除數(shù)據(jù)
6、數(shù)據(jù)流
.剖析文件讀取
.剖析文件寫入
.一致模型
7、通過Flume和Sqoop導(dǎo)入數(shù)據(jù)
8、通過distcp并行復(fù)制
9、Hadoop存檔
.使用Hadoop存檔工具
.不足
模塊五:Hadoop運維管理與性能調(diào)優(yōu)
1、第二代大數(shù)據(jù)處理框架
.Yarn的工作原理及
.DAG并行執(zhí)行機制
.Yarn大數(shù)據(jù)分析處理案例分析
.Yarn框架并行應(yīng)用程序?qū)嵺`
2、集群配置管理
.Hadoop集群配置
.Hadoop性能調(diào)優(yōu)與參數(shù)配置
.Hadoop機架感知策略與配置
.Hadoop壓縮機制
.Hadoop任務(wù)負載均衡
.Hadoop集群維護
.Hadoop監(jiān)控管理
3、HDFS的靜態(tài)調(diào)優(yōu)技巧
.HDFS的高吞吐量I/O性能調(diào)優(yōu)技巧
.MapReduce/Yarn的并行處理性能調(diào)優(yōu)技巧
.Hadoop集群的運行故障剖析,以及解決方案
.基于Hadoop大數(shù)據(jù)應(yīng)用程序的性能瓶頸剖析與提
.Hadoop大數(shù)據(jù)運維監(jiān)控管理系統(tǒng)HUE平臺的安裝部署與應(yīng)用配置
.Hadoop運維管理監(jiān)控系統(tǒng)Ambari平臺的安裝部配置
.Hadoop集群運維系統(tǒng)Ganglia,Nagios的安裝部署與應(yīng)用配置
模塊六:*SQL數(shù)據(jù)庫Hbase與Redis
1、*SQL基礎(chǔ)
.CAP理論
.base與ACID
.*SQL數(shù)據(jù)庫存儲類型鍵值存儲列存儲文檔存儲圖形存儲
2、Hbase分布式數(shù)據(jù)基礎(chǔ)
3、安裝Hbase
4、Hbase應(yīng)用
.Hbase的邏輯數(shù)據(jù)模型,Hbase的表、行、列族、列、單元格、版本、rowkey排序
.Hbase的物理模型,命名空間(表空間)、表模式(Schema)的設(shè)計法則
.Hbase主節(jié)點HMaster的工作原理,HMaster的高可用配置,以及性能調(diào)優(yōu)
.Hbase從節(jié)點RegionServer(分區(qū)服務(wù)節(jié)點)的工作原理,表分區(qū)及存儲I/O高并發(fā)配置,以及性能調(diào)優(yōu)
.Hbase的存儲引擎工作原理,以及Hbase表數(shù)據(jù)的鍵值存儲結(jié)構(gòu),以及HFile存儲結(jié)構(gòu)剖析
.Hbase表設(shè)計與數(shù)據(jù)操作以及數(shù)據(jù)庫管理操作
.Hbase集群的安裝部署、參數(shù)配置和性能優(yōu)化
5、Hbase分布式數(shù)據(jù)庫簡介、發(fā)展歷程、應(yīng)用場景、工作原理、以及應(yīng)用優(yōu)勢與不足之處
.Hbase分布式數(shù)據(jù)庫集群的主從式平臺架構(gòu)和關(guān)鍵技術(shù)剖析
.Hbase偽分布式和物理集群分布式的控制與運行配置
.Hbase從節(jié)點RegionServer(分區(qū)服務(wù)節(jié)點)的工作原理,表分區(qū)及存儲I/O高并發(fā)配置,以及性能調(diào)優(yōu)
.Hbase的存儲引擎工作原理,以及Hbase表數(shù)據(jù)的鍵值存儲結(jié)構(gòu),以及HFile存儲結(jié)構(gòu)剖析
.Hbase表設(shè)計與數(shù)據(jù)操作以及數(shù)據(jù)庫管理操作
.Hbase集群的安裝部署、參數(shù)配置和性能優(yōu)化
.ZooKeeper分布式協(xié)調(diào)服務(wù)系統(tǒng)的工作原理、平臺架構(gòu)、集群部署應(yīng)用實戰(zhàn)
.ZooKeeper集群的原理架構(gòu),以及應(yīng)用配置
6、Redis內(nèi)存數(shù)據(jù)庫介紹,以及業(yè)界應(yīng)用案例
.Redis內(nèi)存數(shù)據(jù)庫集群架構(gòu)以及核心技術(shù)剖析
.Redis集群的安裝部署與應(yīng)用開發(fā)實戰(zhàn)
模塊七:類SQL語句工具——Hive
1、安裝Hive
2、示例
3、運行Hive
.配置Hive
.Hive服務(wù)
.metastore
4、Hive與傳統(tǒng)數(shù)據(jù)庫相比
.讀時模式vs.寫時模式
.更新、事務(wù)和索引
5、HiveQL
.數(shù)據(jù)類型
.操作與函數(shù)
6、表
.托管表和外部表
.分區(qū)和桶
.存儲格式
.導(dǎo)入數(shù)據(jù)
.表的修改
.表的丟棄
7、查詢數(shù)據(jù)
.排序和聚集
.MapReduce腳本
.連接
.子查詢
.視圖
8、用戶定義函數(shù)
.寫UDF
.寫UDAF
模塊八:數(shù)據(jù)挖掘SPARK建?;A(chǔ)介紹
1、Spark簡介
.Spark是什么
.Spark生態(tài)系統(tǒng)BDAS
2、Spark架構(gòu)
.Spark分布式架構(gòu)與單機多核架構(gòu)的異同
3、Spark集群的安裝與部署
.Spark的安裝與部署
.Spark集群初試
4、Spark硬件配置
.Spark硬件
.Spark硬件配置流程
模塊九:Kafka基礎(chǔ)介紹
1、Kafka介紹
2、kafka體系結(jié)構(gòu)
3、kafka設(shè)計理念簡介
4、kafka通信協(xié)議
5、kafka的偽分布安裝、集群安裝
6、kafka的shell操作、java操作
7、kafka設(shè)計理念*
8、kafkaproducer和consumer開發(fā)
9、Kafka分布式消息訂閱系統(tǒng)的應(yīng)用介紹、平臺架構(gòu)、集群部署與配置應(yīng)用實戰(zhàn)
10、Flume-NG數(shù)據(jù)采集系統(tǒng)的數(shù)據(jù)流模型、平臺架構(gòu)、集群部署與配置應(yīng)用實戰(zhàn)
11、Hadoop與DBMS之間數(shù)據(jù)交互工具Sqoop的應(yīng)用實踐,
12、Sqoop導(dǎo)入導(dǎo)出數(shù)據(jù)以及Sqoop集群部署與配置
13、Kettle集群的平臺架構(gòu)、核心技術(shù)、部署配置和應(yīng)用實戰(zhàn)
14、利用Sqoop實現(xiàn)MySQL與Hadoop集群之間
模塊十:大數(shù)據(jù)典型應(yīng)用與開發(fā)案例分析:互聯(lián)網(wǎng)數(shù)據(jù)運營
1、案例1:貴州數(shù)據(jù)交易中心
.交易所交易形式:電子交易
.交易所服務(wù):大數(shù)據(jù)交易、大數(shù)據(jù)清洗建模分析、大數(shù)據(jù)定向采購、大數(shù)據(jù)平臺技術(shù)開發(fā)
.大數(shù)據(jù)交易安全性探討分析
.數(shù)據(jù)交易中心商業(yè)模式探討分析
2、案例2:大數(shù)據(jù)應(yīng)用案例:公共交通線路的智能規(guī)劃
.UrbanInsights:為公交公司提供基于訂閱訪問的大數(shù)據(jù)工具以及大數(shù)據(jù)咨詢服務(wù)
.UrbanInsights數(shù)據(jù)源、數(shù)據(jù)收集、數(shù)據(jù)倉庫、數(shù)據(jù)分析——設(shè)計運營線路
.UrbanInsights通過互聯(lián)網(wǎng)數(shù)據(jù)的運營
3、討論:浙江移動大數(shù)據(jù)應(yīng)用與開發(fā)方向
模塊十一:當(dāng)前數(shù)據(jù)中心的改造和轉(zhuǎn)換分析-以國內(nèi)外運營商、互聯(lián)網(wǎng)公司為例
1、流商業(yè)大數(shù)據(jù)解決方案比較
2、主流開源云計算系統(tǒng)比較.
3、國內(nèi)外代表性大數(shù)據(jù)平臺比較.
4、各廠商*的大數(shù)據(jù)產(chǎn)品介紹
5、案例分析
.Facebook的SNS平臺應(yīng)用
.Google的搜索引擎應(yīng)用
.Rackspace的日志處理
.Verizon成立精準(zhǔn)市場營銷部
.TelefonicaDynamicInsights推出的名為“智慧足跡”的商業(yè)服務(wù)
.中國聯(lián)通的“移動通信用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)”
大數(shù)據(jù)建模與分析挖掘培訓(xùn)內(nèi)容
內(nèi)容提要授課詳細內(nèi)容實踐訓(xùn)練
業(yè)界主流的數(shù)據(jù)倉庫工具和大數(shù)據(jù)分析挖掘工具
1.業(yè)界主流的基于Hadoop和Spark的大數(shù)據(jù)分析挖掘項目解決方案
2.業(yè)界數(shù)據(jù)倉庫與數(shù)據(jù)分析挖掘平臺軟件工具
3.Hadoop數(shù)據(jù)倉庫工具Hive
4.Spark實時數(shù)據(jù)倉庫工具SparkSQL
5.Hadoop數(shù)據(jù)分析挖掘工具Mahout
6.Spark機器學(xué)習(xí)與數(shù)據(jù)分析挖掘工具MLlib
7.大數(shù)據(jù)分析挖掘項目的實施步驟配置數(shù)據(jù)倉庫工具HadoopHive和SparkSQL部署數(shù)據(jù)分析挖掘工具HadoopMahout和SparkMLlib
大數(shù)據(jù)分析挖掘項目的數(shù)據(jù)集成操作訓(xùn)練
1.日志數(shù)據(jù)解析和導(dǎo)入導(dǎo)出到數(shù)據(jù)倉庫的操作訓(xùn)練
2.從原始搜索數(shù)據(jù)集中抽取、集成數(shù)據(jù),整理后形成規(guī)范的數(shù)據(jù)倉庫
3.數(shù)據(jù)分析挖掘模塊從大型的集中式數(shù)據(jù)倉庫中訪問數(shù)據(jù),一個數(shù)據(jù)倉庫面向一個主題,構(gòu)建兩個數(shù)據(jù)倉庫
4.同一個數(shù)據(jù)倉庫中的事實表數(shù)據(jù),可以給多個不同類型的分析挖掘任務(wù)調(diào)用
5.去除噪聲項目數(shù)據(jù)集加載ETL到HadoopHive數(shù)據(jù)倉庫并建立多維模型基于Hadoop的大型數(shù)據(jù)倉庫管理平臺—HIVE數(shù)據(jù)倉庫集群的多維分析建模應(yīng)用實踐
6.基于Hadoop的大型分布式數(shù)據(jù)倉庫在行業(yè)中的數(shù)據(jù)倉庫應(yīng)用案例
7.Hive數(shù)據(jù)倉庫集群的平臺體系結(jié)構(gòu)、核心技術(shù)剖析
8.HiveServer的工作原理、機制與應(yīng)用
9.Hive數(shù)據(jù)倉庫集群的安裝部署與配置優(yōu)化
10.Hive應(yīng)用開發(fā)技巧
11.HiveSQL剖析與應(yīng)用實踐
12.Hive數(shù)據(jù)倉庫表與表分區(qū)、表操作、數(shù)據(jù)導(dǎo)入導(dǎo)出、客戶端操作技巧
13.Hive數(shù)據(jù)倉庫報表設(shè)計
14.將原始的日志數(shù)據(jù)集,經(jīng)過整理后,加載至Hadoop+Hive數(shù)據(jù)倉庫集群中,用于共享訪問利用HIVE構(gòu)建大型數(shù)據(jù)倉庫項目的操作訓(xùn)練實踐
Spark大數(shù)據(jù)分析挖掘平臺實踐操作訓(xùn)練
15.Spark大數(shù)據(jù)分析挖掘平臺的部署配置
16.Spark數(shù)據(jù)分析庫MLlib的開發(fā)部署
17.Spark數(shù)據(jù)分析挖掘示例操作,從Hive表中讀取數(shù)據(jù)并在分布式內(nèi)存中運行
聚類分析建模與挖掘算法的實現(xiàn)原理和技術(shù)應(yīng)用
18.聚類分析建模與算法原理及其在SparkMLlib中的實現(xiàn)與應(yīng)用,包括:a)Canopy聚類(canopyclustering)b)K均值算法(K-meansclustering)c)模糊K均值(FuzzyK-meansclustering)d)EM聚類,即期望*化聚類(ExpectationMaximization)e)以上算法在SparkMLib中的實現(xiàn)原理和實際場景中的應(yīng)用案例。
19.Spark聚類分析算法程序示例基于SparkMLlib的聚類分析算法,實現(xiàn)日志數(shù)據(jù)集中的用戶聚類
分類分析建模與挖掘算法的實現(xiàn)原理和技術(shù)應(yīng)用
20.分類分析建模與算法原理及其在SparkMLlib中的實現(xiàn)與應(yīng)用,包括:f)Spark決策樹算法實現(xiàn)g)邏輯回歸算法(logisticsregression)h)貝葉斯算法(Bayesian與Cbeyes)i)支持向量機(Supportvectormachine)j)以上算法在SparkMLlib中的實現(xiàn)原理和實際場景中的應(yīng)用案例。
21.Spark客戶資料分析與給用戶貼標(biāo)簽的程序示例
22.Spark實現(xiàn)給商品貼標(biāo)簽的程序示例
23.Spark實現(xiàn)用戶行為的自動標(biāo)簽和深度技術(shù)基于SparkMLlib的分類分析算法模型與應(yīng)用操作
關(guān)聯(lián)分析建模與挖掘算法的實現(xiàn)原理和技術(shù)應(yīng)用
24.預(yù)測、推薦分析建模與算法原理及其在SparkMLlib中的實現(xiàn)與應(yīng)用,包括:k)Spark頻繁模式挖掘算法(parallelFPGrowthAlgorithm)應(yīng)用l)Spark關(guān)聯(lián)規(guī)則挖掘(Apriori)算法及其應(yīng)用m)以上算法在SparkMLib中的實現(xiàn)原理和實際場景中的應(yīng)用案例。
25.Spark關(guān)聯(lián)分析程序示例基于SparkMLlib的關(guān)聯(lián)分析操作
推薦分析挖掘模型與算法技術(shù)應(yīng)用
26.推薦算法原理及其在SparkMLlib中的實現(xiàn)與應(yīng)用,包括:a)Spark協(xié)同過濾算法程序示例b)Item-based協(xié)同過濾與推薦c)User-based協(xié)同過濾與推薦d)交叉銷售推薦模型及其實現(xiàn)推薦分析實現(xiàn)步驟與操作(重點)
回歸分析模型與預(yù)測算法
27.利用線性回歸(多元回歸)實現(xiàn)訪問量預(yù)測
28.利用非線性回歸預(yù)測成交量和訪問量的關(guān)系
29.基于R+Spark實現(xiàn)回歸分析模型及其應(yīng)用操作
30.Spark回歸程序?qū)崿F(xiàn)異常點檢測的程序示例回歸分析預(yù)測操作例子
圖關(guān)系建模與分析挖掘及其鏈接分析和社交分析操作
31.利用SparkGraphX實現(xiàn)網(wǎng)頁鏈接分析,計算網(wǎng)頁重要性排名
32.實現(xiàn)信息傳播的社交關(guān)系傳遞分析,互聯(lián)網(wǎng)用戶的行為關(guān)系分析任務(wù)的操作訓(xùn)練圖數(shù)據(jù)的分析挖掘操作,實現(xiàn)微博數(shù)據(jù)集的社交網(wǎng)絡(luò)建模與關(guān)系分析
神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)算法模型及其應(yīng)用實踐
33.神經(jīng)網(wǎng)絡(luò)算法NeuralNetwork的實現(xiàn)方法和挖掘模型應(yīng)用
34.基于人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)的訓(xùn)練過程a)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法b)DeepLearning的訓(xùn)練方法
35.深度學(xué)習(xí)的常用模型和方法a)CNN(ConvolutionalNeuralNetwork)卷積神經(jīng)網(wǎng)絡(luò)b)RNN(RecurrentNeuralNetwork)循環(huán)神經(jīng)網(wǎng)絡(luò)模型c)RestrictedBoltzmannMachine(RBM)限制波爾茲曼機
36.基于Spark的深度學(xué)習(xí)算法模型庫的應(yīng)用程序示例基于Spark或TensorFlow神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)庫實現(xiàn)文本與圖片數(shù)據(jù)挖掘
項目實踐
37.日志分析系統(tǒng)與日志挖掘項目實踐a)Hadoop,Spark,ELK技術(shù)構(gòu)建日志數(shù)據(jù)倉庫b)互聯(lián)網(wǎng)微博日志分析系統(tǒng)項目
38.推薦系統(tǒng)項目實踐a)電影數(shù)據(jù)分析與個性化推薦關(guān)聯(lián)分析項目項目數(shù)據(jù)集和詳細的實驗指導(dǎo)手冊由講師提供培訓(xùn)總結(jié)
39.項目方案的課堂討論,討論實際業(yè)務(wù)中的分析需求,剖析各個環(huán)節(jié)的難點、痛點、瓶頸,啟發(fā)出解決之道;完成講師布置的項目案例,鞏固學(xué)過的大數(shù)據(jù)分析挖掘處理平臺技術(shù)知識以及應(yīng)用技能討論交流
Python機器學(xué)習(xí)培訓(xùn)內(nèi)容
模塊一機器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)1-數(shù)學(xué)分析
1.機器學(xué)習(xí)的一般方法和橫向比較
2.數(shù)學(xué)是有用的:以SVD為例
3.機器學(xué)習(xí)的角度看數(shù)學(xué)
4.復(fù)習(xí)數(shù)學(xué)分析
5.直觀解釋常數(shù)e
6.導(dǎo)數(shù)/梯度
7.隨機梯度下降
8.Taylor展式的落地應(yīng)用
9.gini系數(shù)
10.凸函數(shù)
11.Jensen不等式
12.組合數(shù)與信息熵的關(guān)系
模塊二:機器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)2-概率論與貝葉斯先驗
1.概率論基礎(chǔ)
2.古典概型
3.貝葉斯公式
4.先驗分布/后驗分布/共軛分布
5.常見概率分布
6.泊松分布和指數(shù)分布的物理意義
7.協(xié)方差(矩陣)和相關(guān)系數(shù)
8.獨立和不相關(guān)
9.大數(shù)定律和中心極限定理的實踐意義
10.深刻理解*似然估計MLE和*后驗估計MAP
11.過擬合的數(shù)學(xué)原理與解決方案
模塊三:機器學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)3-矩陣和線性代數(shù)
1.線性代數(shù)在數(shù)學(xué)科學(xué)中的地位
2.馬爾科夫模型
3.矩陣乘法的直觀表達
4.狀態(tài)轉(zhuǎn)移矩陣
5.矩陣和向量組
6.特征向量的思考和實踐計算
7.QR分解
8.對稱陣、正交陣、正定陣
9.數(shù)據(jù)白化及其應(yīng)用
10.向量對向量求導(dǎo)
11.標(biāo)量對向量求導(dǎo)
12.標(biāo)量對矩陣求導(dǎo)工作機制
模塊四:Python基礎(chǔ)1-Python及其數(shù)學(xué)庫
1.解釋器Python2.7與IDE:Anaconda/Pycharm
2.Python基礎(chǔ):列表/元組/字典/類/文件
3.Taylor展式的代碼實現(xiàn)
4.numpy/scipy/matplotlib/panda的介紹和典型使用
5.多元高斯分布
6.泊松分布、冪律分布
7.典型圖像處理
8.蝴蝶效應(yīng)
9.分形與可視化
模塊五:Python基礎(chǔ)2-機器學(xué)習(xí)庫
1.scikit-learn的介紹和典型使用
2.損失函數(shù)的繪制
3.多種數(shù)學(xué)曲線
4.多項式擬合
5.快速傅里葉變換FFT
6.奇異值分解SVD
7.Soble/Prewitt/Laplacian算子與卷積網(wǎng)絡(luò)
8.卷積與(指數(shù))移動平均線
9.股票數(shù)據(jù)分析
模塊六:Python基礎(chǔ)3-數(shù)據(jù)清洗和特征選擇
1.實際生產(chǎn)問題中算法和特征的關(guān)系
2.股票數(shù)據(jù)的特征提取和應(yīng)用
3.一致性檢驗
4.缺失數(shù)據(jù)的處理
5.環(huán)境數(shù)據(jù)異常檢測和分析
6.模糊數(shù)據(jù)查詢和數(shù)據(jù)校正方法、算法、應(yīng)用
7.樸素貝葉斯用于鳶尾花數(shù)據(jù)
8.GaussianNB/MultinomialNB/BernoulliNB
9.樸素貝葉斯用于18000+篇/Sogou新聞文本的分類
模塊七:回歸
1.線性回歸
2.Logistic/Softmax回歸
3.廣義線性回歸
4.L1/L2正則化
5.Ridge與LASSO
6.ElasticNet
7.梯度下降算法:BGD與SGD
8.特征選擇與過擬合
模塊八:Logistic回歸
1.Sigmoid函數(shù)的直觀解釋
2.Softmax回歸的概念源頭
3.Logistic/Softmax回歸
4.*熵模型
5.K-L散度
6.損失函數(shù)
7.Softmax回歸的實現(xiàn)與調(diào)參
模塊九:回歸實踐
1.機器學(xué)習(xí)sklearn庫介紹
2.線性回歸代碼實現(xiàn)和調(diào)參
3.Softmax回歸代碼實現(xiàn)和調(diào)參
4.Ridge回歸/LASSO/ElasticNet
5.Logistic/Softmax回歸
6.廣告投入與銷售額回歸分析
7.鳶尾花數(shù)據(jù)集的分類
8.交叉驗證
9.數(shù)據(jù)可視化
模塊十:決策樹和隨機森林
1.熵、聯(lián)合熵、條件熵、KL散度、互信息
2.*似然估計與*熵模型
3.ID3、C4.5、CART詳解
4.決策樹的正則化
5.預(yù)剪枝和后剪枝
6.Bagging
7.隨機森林
8.不平衡數(shù)據(jù)集的處理
9.利用隨機森林做特征選擇
10.使用隨機森林計算樣本相似度
11.數(shù)據(jù)異常值檢測
模塊十一:隨機森林實踐
1.隨機森林與特征選擇
2.決策樹應(yīng)用于回歸
3.多標(biāo)記的決策樹回歸
4.決策樹和隨機森林的可視化
5.葡萄酒數(shù)據(jù)集的決策樹/隨機森林分類
6.波士頓房價預(yù)測
模塊十二:提升
1.提升為什么有效
2.梯度提升決策樹GBDT
3.XGBoost算法詳解
4.Adaboost算法
5.加法模型與指數(shù)損失
模塊十三:提升實踐
1.Adaboost用于蘑菇數(shù)據(jù)分類
2.Adaboost與隨機森林的比較
3.XGBoost庫介紹
4.Taylor展式與學(xué)習(xí)算法
5.KAGGLE簡介
6.泰坦尼克乘客存活率估計
模塊十四SVM
1.線性可分支持向量機
2.軟間隔的改進
3.損失函數(shù)的理解
4.核函數(shù)的原理和選擇
5.SMO算法
6.支持向量回歸SVR
模塊十五:SVM實踐
1.libSVM代碼庫介紹
2.原始數(shù)據(jù)和特征提取
3.葡萄酒數(shù)據(jù)分類
4.數(shù)字圖像的手寫體識別
5.SVR用于時間序列曲線預(yù)測
6.SVM、Logistic回歸、隨機森林三者的橫向比較
模塊十六:聚類(一)
1.各種相似度度量及其相互關(guān)系
2.Jaccard相似度和準(zhǔn)確率、召回率
3.Pearson相關(guān)系數(shù)與余弦相似度
4.K-means與K-Medoids及變種
5.AP算法(Sci07)/LPA算法及其應(yīng)用
模塊十七:聚類(二)
1.密度聚類DBSCAN/DensityPeak(Sci14)
2.DensityPeak(Sci14)
3.譜聚類SC
4.聚類評價AMI/ARI/Silhouette
5.LPA算法及其應(yīng)用
模塊十八:聚類實踐
1.K-Means++算法原理和實現(xiàn)
2.向量量化VQ及圖像近似
3.并查集的實踐應(yīng)用
4.密度聚類的代碼實現(xiàn)
5.譜聚類用于圖片分割
模塊十九:EM算法
1.*似然估計
2.Jensen不等式
3.樸素理解EM算法
4.*推導(dǎo)EM算法
5.EM算法的深入理解
6.混合高斯分布
7.主題模型pLSA
模塊二十:EM算法實踐
1.多元高斯分布的EM實現(xiàn)
2.分類結(jié)果的數(shù)據(jù)可視化
3.EM與聚類的比較
4.Dirichlet過程EM
5.三維及等高線等圖件的繪制
6.主題模型pLSA與EM算法
模塊二十一:主題模型LDA
1.貝葉斯學(xué)派的模型認識
2.Beta分布與二項分布
3.共軛先驗分布
4.Dirichlet分布
5.Laplace平滑
6.Gibbs采樣詳解
模塊二十二LDA實踐
1.網(wǎng)絡(luò)爬蟲的原理和代碼實現(xiàn)
2.停止詞和高頻詞
3.動手自己實現(xiàn)LDA
4.LDA開源包的使用和過程分析
5.Metropolis-Hastings算法
6.MCMC
7.LDA與word2vec的比較
8.TextRank算法與實踐
模塊二十三:隱馬爾科夫模型HMM
1.概率計算問題
2.前向/后向算法
3.HMM的參數(shù)學(xué)習(xí)
4.Baum-Welch算法詳解
5.Viterbi算法詳解
6.隱馬爾科夫模型的應(yīng)用優(yōu)劣比較
模塊二十四:HMM實踐
1.動手自己實現(xiàn)HMM用于中文分詞
2.多個語言分詞開源包的使用和過程分析
3.文件數(shù)據(jù)格式UFT-8、Unicode
4.停止詞和標(biāo)點符號對分詞的影響
5.前向后向算法計算概率溢出的解決方案
6.發(fā)現(xiàn)新詞和分詞效果分析
7.高斯混合模型HMM
8.GMM-HMM用于股票數(shù)據(jù)特征提取
模塊二十五:課堂提問與互動討論
五、師資介紹
張老師:阿里大數(shù)據(jù)高級專家,國內(nèi)資深的Spark、Hadoop技術(shù)專家、虛擬化專家,對HDFS、MapReduce、Hbase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生態(tài)系統(tǒng)中的技術(shù)進行了多年的深入的研究,更主要的是這些技術(shù)在大量的實際項目中得到廣泛的應(yīng)用,因此在Hadoop開發(fā)和運維方面積累了豐富的項目實施經(jīng)驗。近年主要典型的項目有:某電信集團網(wǎng)絡(luò)優(yōu)化、中國移動某省移動公司請賬單系統(tǒng)和某省移動詳單實時查詢系統(tǒng)、中國銀聯(lián)大數(shù)據(jù)數(shù)據(jù)票據(jù)詳單平臺、某大型銀行大數(shù)據(jù)記錄系統(tǒng)、某大型通信運營商全國用戶上網(wǎng)記錄、某省交通部門違章系統(tǒng)、某區(qū)域醫(yī)療大數(shù)據(jù)應(yīng)用項目、互聯(lián)網(wǎng)公共數(shù)據(jù)大云(DAAS)和構(gòu)建游戲云(WebGameDaas)平臺項目等。
六、頒發(fā)證書
參加相關(guān)培訓(xùn)并通過考試的學(xué)員,可以獲得:
工業(yè)和信息化部頒發(fā)的-《大數(shù)據(jù)工程師證書》。該證書可作為專業(yè)技術(shù)人員職業(yè)能力考核的證明,以及專業(yè)技術(shù)人員崗位聘用、任職、定級和晉升職務(wù)的重要依據(jù)。注:請學(xué)員帶一寸彩照2張(背面注明姓名)、身份證復(fù)印件一張。
全國高校大數(shù)據(jù)(Hadoop、spark、Python)師資培訓(xùn)
轉(zhuǎn)載:http://www.jkyingpanluxiangji.com/gkk_detail/65318.html
已開課時間Have start time
大數(shù)據(jù)課程內(nèi)訓(xùn)
- 管理者數(shù)據(jù)能力晉級 宋致旸
- 大數(shù)據(jù)行業(yè)的現(xiàn)狀與熱點 徐全
- 數(shù)字媒體和數(shù)字教學(xué) 鐘理勇
- 《企業(yè)數(shù)據(jù)管理與數(shù)據(jù)資產(chǎn)化 張光利
- 數(shù)字金融與智能金融下的智慧 盧森煌
- 《小紅書運營策劃與執(zhí)行》 黃光偉
- 商業(yè)銀行數(shù)據(jù)治理體系建設(shè)實 馬慶
- 數(shù)字經(jīng)濟基礎(chǔ)和企業(yè)數(shù)字化轉(zhuǎn) 盧森煌
- 大數(shù)據(jù)時代下服務(wù)營銷新思維 秦超
- 數(shù)字化轉(zhuǎn)型與新質(zhì)生產(chǎn)力 盧森煌
- 《零售行業(yè)社群團購運營》 陳蕊
- 企業(yè)區(qū)塊鏈技術(shù)的應(yīng)用場景與 李璐