課程描述INTRODUCTION
· 高層管理者· 中層領(lǐng)導(dǎo)· 其他人員
日程安排SCHEDULE
課程大綱Syllabus
數(shù)據(jù)挖掘處理課程
一、數(shù)據(jù)挖掘?qū)д?br />
數(shù)據(jù)挖掘的基本任務(wù)與步驟:目標(biāo)、數(shù)據(jù)探索、數(shù)據(jù)預(yù)處理、建模、模型評(píng)價(jià)
有監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)算法模型
Sklean 數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法庫(kù)介紹
大數(shù)據(jù)建模常見問題
問題引出:客戶行為分析-用戶用電異常的識(shí)別
二、Python 編程快速入門
Python 編程環(huán)境與語(yǔ)法快速入門
基礎(chǔ)數(shù)據(jù)結(jié)構(gòu):字符串處理及應(yīng)用
數(shù)據(jù)結(jié)構(gòu):列表、元組、集合、字典
Python 控制流:IF 與 while、for 循環(huán)
函數(shù)與模塊定義
Python 文件讀寫
Python 面向?qū)ο缶幊趟枷?br />
Python 異常處理
實(shí)驗(yàn):
—— 讀寫 CSV 文件
—— 處理 Excel 文件
三、Python 數(shù)據(jù)分析進(jìn)階
Python 并行編程:多線程與多進(jìn)程實(shí)現(xiàn)
—— 進(jìn)程與線程概念
—— 進(jìn)程同步機(jī)制
—— 多進(jìn)程實(shí)現(xiàn)
—— 多線程實(shí)現(xiàn)
輕松訪問數(shù)據(jù)庫(kù)
—— 連接訪問 Sqlite
—— 操縱 MySQL
—— Python 的對(duì)象關(guān)系映射模型
實(shí)驗(yàn):
—— 多進(jìn)程讀取超大文件
—— SQLite 讀寫練習(xí)南京?杭州?上海
四、Scikit-learn 數(shù)據(jù)預(yù)處理實(shí)踐
數(shù)據(jù)統(tǒng)計(jì)量:期望/方差/偏度/峰度
協(xié)方差和相關(guān)系數(shù)、方差與標(biāo)準(zhǔn)差
數(shù)據(jù)描述:集中趨勢(shì)、離散程度、分位數(shù)
數(shù)據(jù)可視化:直方圖、盒圖、散點(diǎn)圖
數(shù)據(jù)預(yù)處理基本方法
數(shù)據(jù)歸一化方法
對(duì)數(shù)據(jù)進(jìn)行降維,主成分分析 PCA
實(shí)驗(yàn):
—— 利用隨機(jī)森林做特征篩選
—— 數(shù)據(jù)預(yù)處理:歸一化、缺失值處理
—— 降維 PCA 實(shí)現(xiàn)
—— 找出較好的特征組合:PCA 與 LDA 效果對(duì)比
—— 隨機(jī)森林評(píng)估特征重要性
五、Python 數(shù)據(jù)分析進(jìn)階
高性能矩陣計(jì)算工具 Numpy:
—— Numpy 數(shù)組與元素索引
—— 矩陣計(jì)算
—— 通用函數(shù)、計(jì)算統(tǒng)計(jì)量
以表格處理數(shù)據(jù)——高級(jí)數(shù)據(jù)分析包
—— Pandas:數(shù)據(jù)框架 Dataframe
—— 快速索引數(shù)據(jù)
—— 常用函數(shù)
—— 快速可視化分析
—— 匯總與統(tǒng)計(jì)
實(shí)驗(yàn):基于 Pandas 的數(shù)據(jù)預(yù)處理
六、數(shù)據(jù)可視化分析
Matplotlib 繪圖庫(kù)介紹
快速繪圖
常見繪圖函數(shù):散點(diǎn)圖、柱狀圖、盒圖
圖片處理
三維繪圖演示
Pandas 快速繪圖南京?杭州?上海
實(shí)驗(yàn):
—— 繪制常見統(tǒng)計(jì)圖
—— 利用 Pandas 獲取數(shù)據(jù)并繪圖
七、Scikit-Learn 數(shù)據(jù)挖掘?qū)嵺`
數(shù)值預(yù)測(cè):Logistic/Softmax 回歸/隨機(jī)森林
梯度下降算法:BGD 與 SGD 介紹
Sklean 決策樹算法實(shí)現(xiàn): ID3、C4.5、CART 決策樹算法
用 Bagging 改善分類性能
隨機(jī)森林方法
決策樹用于分析挖掘的建模實(shí)現(xiàn)和決策樹的評(píng)估
Sklean 決策樹算法應(yīng)用編程
實(shí)驗(yàn):
—— 用隨機(jī)森林預(yù)測(cè)數(shù)值
—— 決策樹編程演示
—— 決策樹分析客戶數(shù)據(jù)
八、 Scikit-Learn 數(shù)據(jù)挖掘?qū)嵺`
支持向量機(jī) SVM
線性可分軟間隔 SVM
損失函數(shù)的理解
支持向量回歸 SVR
不平衡數(shù)據(jù)集的處理
分類器性能評(píng)價(jià)
支持向量機(jī)的參數(shù)調(diào)優(yōu)
分類器性能評(píng)價(jià)
實(shí)驗(yàn):
—— 銀行信貸客戶分類
—— Grid 法調(diào)參
—— 不平衡分布對(duì)性能的影響
—— 交叉驗(yàn)證
—— 多分類器性能比較:ROC 曲線
—— 問題討論:用電異常行為識(shí)別
九、無監(jiān)督學(xué)習(xí):Scikit-Learn 聚類分析
Jaccard 相似度
Pearson 相關(guān)系數(shù)與余弦相似度南京?杭州?上海
層次聚類
K-means 聚類
半監(jiān)督 AP 聚類算法及其應(yīng)用
密度聚類 DBSCAN
聚類評(píng)價(jià)和結(jié)果指標(biāo)
實(shí)驗(yàn):
—— K-Means 算法原理和實(shí)現(xiàn)
—— 密度聚類
—— 比較不同的聚類算法
—— 問題討論:客戶分級(jí)
十、神經(jīng)網(wǎng)絡(luò)實(shí)踐
神經(jīng)網(wǎng)絡(luò)基本原理
淺層神經(jīng)網(wǎng)絡(luò)與深層網(wǎng)絡(luò)分析
神經(jīng)網(wǎng)絡(luò)用于數(shù)值預(yù)測(cè)
神經(jīng)網(wǎng)絡(luò)用于分類
Scikit-Learn 神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)
案例分享:阿里云天池賽電力 AI:預(yù)測(cè)用電量
十一、Python 數(shù)據(jù)挖掘項(xiàng)目實(shí)踐
根據(jù)客戶數(shù)據(jù)集特點(diǎn),完成數(shù)據(jù)的預(yù)處理、特征篩選
客戶流失問題建模與分類
客戶分級(jí)建模
解決方案討論
大數(shù)據(jù)挖掘技術(shù)的發(fā)展
案例分享:用戶畫像
需新增重點(diǎn)內(nèi)容:
基于阿里MAXCOMPUTE的相關(guān)PYTHON函數(shù)學(xué)習(xí)
多增加PYTHON機(jī)器學(xué)習(xí)的實(shí)驗(yàn)課
大數(shù)據(jù)應(yīng)用解決實(shí)踐方法及案例
數(shù)據(jù)挖掘處理課程
轉(zhuǎn)載:http://www.jkyingpanluxiangji.com/gkk_detail/273039.html
已開課時(shí)間Have start time
- 尹傳亮
大數(shù)據(jù)營(yíng)銷內(nèi)訓(xùn)
- 數(shù)字經(jīng)濟(jì)基礎(chǔ)和企業(yè)數(shù)字化轉(zhuǎn) 盧森煌
- 商業(yè)銀行數(shù)據(jù)治理體系建設(shè)實(shí) 馬慶
- 《企業(yè)數(shù)據(jù)管理與數(shù)據(jù)資產(chǎn)化 張光利
- 數(shù)字化轉(zhuǎn)型與新質(zhì)生產(chǎn)力 盧森煌
- 《零售行業(yè)社群團(tuán)購(gòu)運(yùn)營(yíng)》 陳蕊
- 數(shù)字媒體和數(shù)字教學(xué) 鐘理勇
- 《小紅書運(yùn)營(yíng)策劃與執(zhí)行》 黃光偉
- 數(shù)字金融與智能金融下的智慧 盧森煌
- 大數(shù)據(jù)時(shí)代下服務(wù)營(yíng)銷新思維 秦超
- 大數(shù)據(jù)行業(yè)的現(xiàn)狀與熱點(diǎn) 徐全
- 管理者數(shù)據(jù)能力晉級(jí) 宋致旸
- 企業(yè)區(qū)塊鏈技術(shù)的應(yīng)用場(chǎng)景與 李璐