封面
版权页
内容简介
作者简介
推荐序1
推荐序2
前言
第1章 数据科学应用概述
1.1 什么是数据清洗、特征工程、数据可视化、数据挖掘与建模
1.1.1 数据清洗的概念
1.1.2 特征工程的概念
1.1.3 数据可视化的概念
1.1.4 数据挖掘与建模的概念
1.2 为什么要开展数据清洗、特征工程、数据可视化和数据挖掘与建模
1.2.1 数据清洗、特征工程的重要性
1.2.2 数据可视化的重要性
1.2.3 数据挖掘与建模的重要性
1.3 为什么要将Python作为实现工具
1.4 数据清洗、特征工程、数据可视化和数据挖掘与建模的主要内容
1.4.1 数据清洗的主要内容
1.4.2 特征工程的主要内容
1.4.3 数据可视化的主要内容
1.4.4 数据挖掘与建模的主要内容
1.5 数据清洗、特征工程、数据可视化和数据挖掘与建模的应用场景
1.5.1 数据清洗、特征工程的应用场景
1.5.2 数据可视化的应用场景
1.5.3 数据挖掘与建模的应用场景
1.6 数据清洗、特征工程和数据可视化的注意事项
1.6.1 数据清洗、特征工程的注意事项
1.6.2 数据可视化的注意事项
1.7 数据挖掘与建模的注意事项
1.8 习题
第2章 Python入门基础
2.1 Python概述
2.2 Anaconda平台的下载与安装
2.2.1 Anaconda平台的下载
2.2.2 Anaconda平台的安装
2.2.3 Anaconda Prompt(Anaconda3)
2.2.4 Spyder(Anaconda3)的介绍及偏好设置
2.2.5 Spyder(Anaconda3)窗口介绍
2.3 Python的注释
2.4 基本输出函数——print()函数
2.5 基本输入函数——input()函数
2.6 Python的保留字与标识符
2.6.1 Python中的保留字
2.6.2 Python的标识符
2.7 Python的变量
2.8 Python的基本数据类型
2.9 Python的数据运算符
2.10 Python序列的概念及通用操作
2.10.1 索引
2.10.2 切片
2.10.3 相加
2.10.4 相乘
2.10.5 元素检查
2.10.6 与序列相关的内置函数
2.11 Python列表
2.11.1 列表的基本操作
2.11.2 列表元素的基本操作
2.12 Python元组
2.12.1 元组的基本操作
2.12.2 元组元素的基本操作
2.13 Python字典
2.13.1 字典的基本操作
2.13.2 字典元素的基本操作
2.14 Python集合
2.15 Python字符串
2.16 习题
第3章 数据清洗
3.1 Python数据清洗基础
3.1.1 Python函数与模块
3.1.2 numpy模块数组
3.1.3 pandas模块序列
3.1.4 pandas模块数据框
3.1.5 Python流程控制语句
3.2 Python数据读取、合并、写入
3.2.1 读取、合并、写入文本文件(CSV或者TXT)
3.2.2 读取、合并、写入Excel数据文件
3.2.3 读取、合并、写入Stata数据文件
3.2.4 读取、合并SPSS数据文件
3.3 Python数据检索
3.4 Python数据行列处理
3.4.1 删除变量列、样本行
3.4.2 更改变量的列名称、调整变量列顺序
3.4.3 改变列的数据格式
3.4.4 多列转换
3.4.5 数据百分比格式转换
3.5 Python数据缺失值处理
3.5.1 查看数据集中的缺失值
3.5.2 填充数据集中的缺失值
3.5.3 删除数据集中的缺失值
3.6 Python数据重复值处理
3.6.1 查看数据集中的重复值
3.6.2 删除数据集中的重复值
3.7 Python数据异常值处理
3.7.1 运用3δ准则检测异常值
3.7.2 绘制箱图检测异常值
3.7.3 删除异常值
3.7.4 3δ准则替换异常值
3.7.5 1%/99%分位数替换异常值
3.8 Python数据透视表、描述性分析和交叉表分析
3.8.1 数据透视表
3.8.2 描述性分析
3.8.3 交叉表分析
3.9 习题
第4章 特征选择
4.1 特征选择的概念、原则及方法
4.1.1 特征选择的概念
4.1.2 特征选择的原则
4.1.3 特征选择的方法
4.2 过滤法——去掉低方差的特征
4.3 过滤法——单变量特征选择
4.3.1 卡方检验
4.3.2 相关性分析
4.3.3 方差分析(F检验)
4.3.4 互信息
4.4 包裹法——递归特征消除
4.5 嵌入法
4.5.1 随机森林算法选择特征变量
4.5.2 提升法算法选择特征变量
4.5.3 Logistic回归算法选择特征变量
4.5.4 线性支持向量机算法选择特征变量
4.6 习题
第5章 特征处理
5.1 特征归一化、特征标准化、样本归一化
5.1.1 特征归一化
5.1.2 特征标准化
5.1.3 样本归一化
5.2 特征等宽分箱和等频分箱
5.3 特征决策树分箱
5.3.1 信息熵
5.3.2 信息增益
5.3.3 增益比率
5.3.4 基尼指数
5.3.5 变量重要性
5.3.6 特征决策树分箱的Python实现
5.4 特征卡方分箱
5.5 WOE(证据权重)和IV(信息价值)
5.5.1 WOE和IV的概念
5.5.2 WOE的作用
5.5.3 WOE编码注意事项
5.5.4 IV的作用
5.5.5 为什么使用IV而不是WOE来判断特征变量的预测能力
5.6 WOE、IV的Python实现
5.6.1 载入分析所需要的模块和函数
5.6.2 数据读取及观察
5.6.3 描述性统计分析
5.6.4 特征变量筛选
5.6.5 划分训练样本和测试样本
5.6.6 分箱操作
5.6.7 画分箱图
5.6.8 调整分箱
5.6.9 将训练样本和测试样本进行WOE编码
5.6.10 构建Logistic模型进行预测
5.6.11 模型预测及评价
5.6.12 绘制ROC曲线,计算AUC值
5.7 习题
第6章 特征提取
6.1 无监督降维技术——主成分分析
6.1.1 主成分分析的基本原理
6.1.2 主成分分析的数学概念
6.1.3 主成分的特征值
6.1.4 样本的主成分得分
6.1.5 主成分载荷
6.1.6 主成分分析的Python实现
6.2 有监督降维技术——线性判别分析
6.2.1 线性判别分析的基本原理
6.2.2 线性判别分析的算法过程
6.2.3 线性判别分析的Python实现
6.3 习题
第7章 数据可视化
7.1 四象限图
7.1.1 四象限图简介
7.1.2 案例数据介绍
7.1.3 Python代码示例
7.2 热力图
7.2.1 热力图简介
7.2.2 案例数据介绍
7.2.3 Python代码示例
7.3 直方图
7.3.1 直方图简介
7.3.2 案例数据介绍
7.3.3 Python代码示例
7.4 条形图、核密度图和正态QQ图
7.4.1 条形图、核密度图和正态QQ图简介
7.4.2 案例数据介绍
7.4.3 Python代码示例
7.5 散点图
7.5.1 散点图简介
7.5.2 案例数据介绍
7.5.3 Python代码示例
7.6 线图(含时间序列趋势图)
7.6.1 线图(含时间序列趋势图)简介
7.6.2 案例数据介绍
7.6.3 Python代码示例
7.7 双纵轴线图
7.7.1 双纵轴线图简介
7.7.2 案例数据介绍
7.7.3 Python代码示例
7.8 回归拟合图
7.8.1 回归拟合图简介
7.8.2 案例数据介绍
7.8.3 Python代码示例
7.9 箱图
7.9.1 箱图简介
7.9.2 案例数据介绍
7.9.3 Python代码示例
7.10 小提琴图
7.10.1 小提琴图简介
7.10.2 案例数据介绍
7.10.3 Python代码示例
7.11 联合分布图
7.11.1 联合分布图简介
7.11.2 案例数据介绍
7.11.3 Python代码示例
7.12 雷达图
7.12.1 雷达图简介
7.12.2 案例数据介绍
7.12.3 Python代码示例
7.13 饼图
7.13.1 饼图简介
7.13.2 案例数据介绍
7.13.3 Python代码示例
7.14 习题
第8章 数据挖掘与建模1——线性回归
8.1 基本思想
8.1.1 线性回归算法的概念及数学解释
8.1.2 线性回归算法的优点
8.1.3 线性回归算法的缺点
8.2 应用案例
8.2.1 数据挖掘与建模思路
8.2.2 数据文件介绍
8.2.3 导入分析所需要的模块和函数
8.2.4 数据读取及观察
8.3 使用smf进行线性回归
8.3.1 使用smf进行线性回归
8.3.2 多重共线性检验
8.3.3 解决多重共线性问题
8.3.4 绘制拟合回归平面
8.4 使用sklearn进行线性回归
8.4.1 使用验证集法进行模型拟合
8.4.2 更换随机数种子,使用验证集法进行模型拟合
8.4.3 使用10折交叉验证法进行模型拟合
8.4.4 使用10折重复10次交叉验证法进行模型拟合
8.4.5 使用留一交叉验证法进行模型拟合
8.5 习题
第9章 数据挖掘与建模2——Logistic回归
9.1 基本思想
9.1.1 Logistic回归算法的概念及数学解释
9.1.2 “分类问题监督式学习”的性能度量
9.2 应用案例
9.2.1 数据文件介绍
9.2.2 导入分析所需要的模块和函数
9.2.3 数据读取及观察
9.3 描述性分析
9.4 数据处理
9.4.1 区分分类特征和连续特征并进行处理
9.4.2 将样本全集分割为训练样本和测试样本
9.5 建立二元Logistic回归算法模型
9.5.1 使用statsmodels建立二元Logistic回归算法模型
9.5.2 使用sklearn建立二元Logistic回归算法模型
9.5.3 特征变量重要性水平分析
9.5.4 绘制ROC曲线,计算AUC值
9.5.5 计算科恩kappa得分
9.6 习题
第10章 数据挖掘与建模3——决策树
10.1 基本思想
10.1.1 决策树算法的概念与原理
10.1.2 决策树的剪枝
10.1.3 包含剪枝决策树的损失函数
10.2 数据准备
10.2.1 案例数据说明
10.2.2 导入分析所需要的模块和函数
10.3 分类问题决策树算法示例
10.3.1 变量设置及数据处理
10.3.2 未考虑成本-复杂度剪枝的决策树分类算法模型
10.3.3 考虑成本-复杂度剪枝的决策树分类算法模型
10.3.4 绘制图形观察叶节点总不纯度随alpha值的变化情况
10.3.5 绘制图形观察节点数和树的深度随alpha值的变化情况
10.3.6 绘制图形观察训练样本和测试样本的预测准确率随alpha值的变化情况
10.3.7 通过10折交叉验证法寻求最优alpha值
10.3.8 决策树特征变量重要性水平分析
10.3.9 绘制ROC曲线
10.3.10 运用两个特征变量绘制决策树算法决策边界图
10.4 回归问题决策树算法示例
10.4.1 变量设置及数据处理
10.4.2 未考虑成本-复杂度剪枝的决策树回归算法模型
10.4.3 考虑成本-复杂度剪枝的决策树回归算法模型
10.4.4 绘制图形观察叶节点总均方误差随alpha值的变化情况
10.4.5 绘制图形观察节点数和树的深度随alpha值的变化情况
10.4.6 绘制图形观察训练样本和测试样本的拟合优度随alpha值的变化情况
10.4.7 通过10折交叉验证法寻求最优alpha值并开展特征变量重要性水平分析
10.4.8 最优模型拟合效果图形展示
10.4.9 构建线性回归算法模型进行对比
10.5 习题
第11章 数据挖掘与建模4——随机森林
11.1 随机森林算法的基本原理
11.1.1 模型融合的基本思想
11.1.2 集成学习的概念与分类
11.1.3 装袋法的概念与原理
11.1.4 随机森林算法的概念与原理
11.1.5 随机森林算法特征变量重要性度量
11.1.6 部分依赖图与个体条件期望图
11.2 数据准备
11.2.1 案例数据说明
11.2.2 导入分析所需要的模块和函数
11.3 分类问题随机森林算法示例
11.3.1 变量设置及数据处理
11.3.2 二元Logistic回归和单棵分类决策树算法
11.3.3 装袋法分类算法
11.3.4 随机森林分类算法
11.3.5 寻求max_features最优参数
11.3.6 寻求n_estimators最优参数
11.3.7 随机森林特征变量重要性水平分析
11.3.8 绘制部分依赖图与个体条件期望图
11.3.9 模型性能评价
11.3.10 绘制ROC曲线
11.3.11 运用两个特征变量绘制随机森林算法决策边界图
11.4 回归问题随机森林算法示例
11.4.1 变量设置及数据处理
11.4.2 线性回归、单棵回归决策树算法
11.4.3 装袋法回归算法
11.4.4 随机森林回归算法
11.4.5 寻求max_features最优参数
11.4.6 寻求n_estimators最优参数
11.4.7 随机森林特征变量重要性水平分析
11.4.8 绘制部分依赖图与个体条件期望图
11.4.9 最优模型拟合效果图形展示
11.5 习题
第12章 数据挖掘与建模5——神经网络
12.1 神经网络算法的基本原理
12.1.1 神经网络算法的基本思想
12.1.2 感知机
12.1.3 多层感知机
12.1.4 神经元激活函数
12.1.5 误差反向传播算法(BP算法)
12.1.6 万能近似定理及多隐藏层优势
12.1.7 BP算法过拟合问题的解决
12.2 数据准备
12.2.1 案例数据说明
12.2.2 导入分析所需要的模块和函数
12.3 回归神经网络算法示例
12.3.1 变量设置及数据处理
12.3.2 单隐藏层的多层感知机算法
12.3.3 神经网络特征变量重要性水平分析
12.3.4 绘制部分依赖图与个体条件期望图
12.3.5 拟合优度随神经元个数变化的可视化展示
12.3.6 通过K折交叉验证寻求单隐藏层最优神经元个数
12.3.7 双隐藏层的多层感知机算法
12.3.8 最优模型拟合效果图形展示
12.4 二分类神经网络算法示例
12.4.1 变量设置及数据处理
12.4.2 单隐藏层二分类问题神经网络算法
12.4.3 双隐藏层二分类问题神经网络算法
12.4.4 早停策略减少过拟合问题
12.4.5 正则化(权重衰减)策略减少过拟合问题
12.4.6 模型性能评价
12.4.7 绘制ROC曲线
12.4.8 运用两个特征变量绘制二分类神经网络算法决策边界图
12.5 习题
第13章 数据挖掘与建模6——RFM分析
13.1 RFM分析的基本原理
13.1.1 RFM分析的基本思想
13.1.2 RFM分类组合与客户类型对应情况
13.1.3 不同类型客户的特点及市场营销策略
13.2 数据准备
13.2.1 案例数据说明
13.2.2 导入分析所需要的模块和函数
13.3 RFM分析示例
13.3.1 数据读取及观察
13.3.2 计算R、F、M分值
13.3.3 生成RFM数据集
13.3.4 不同类别客户数量分析
13.3.5 不同类别客户消费金额分析
13.4 习题
更新时间:2024-12-24 10:12:22