封面
版权信息
作者简介
大数据分析师面试笔试宝典
前言
第1章 面试经验
1.1 大数据分析技能要求
1.1.1 数据分析师
1.1.2 数据开发工程师
1.1.3 数据挖掘工程师
1.1.4 职业能力模型
1.2 数据分析工作流程
1.2.1 组织架构
1.2.2 分析流程
1.3 数据分析师临场面试
1.3.1 如何准备面试
1.3.2 面试问题
1.4 本章总结
第2章 统计学知识
2.1 概率知识
2.1.1 概率模型之间的关系解析
2.1.2 概率相关面试题
2.1.3 贝叶斯公式
2.2 参数估计
2.2.1 点估计
2.2.2 区间估计
2.3 假设检验
2.3.1 假设检验原理
2.3.2 两类错误
2.3.3 假设检验的常用方法
2.4 抽样技术解析
2.4.1 样本量影响因素分析
2.4.2 假设检验样本量计算
2.4.3 参数估计样本量计算
2.5 马尔可夫模型
2.5.1 马尔可夫过程原理
2.5.2 马尔可夫模型计算
2.6 隐马尔可夫模型
2.6.1 HMM和三类问题
2.6.2 求概率问题
2.6.3 预测问题
2.6.4 学习问题
2.7 EM算法
2.7.1 基本思想
2.7.2 算法流程
2.8 本章总结
第3章 数据挖掘算法
3.1 常用聚类算法
3.1.1 Kmeans算法
3.1.2 DBSCAN算法
3.1.3 聚类算法评估
3.2 常用分类算法
3.2.1 决策树
3.2.2 朴素贝叶斯
3.2.3 KNN
3.2.4 SVM
3.2.5 逻辑回归
3.2.6 BP神经网络
3.3 集成学习算法
3.3.1 Bagging原理
3.3.2 随机森林
3.3.3 Boosting原理
3.3.4 Adaboost算法
3.3.5 Stacking算法
3.3.6 分类算法评估
3.3.7 分类算法小结
3.4 关联规则算法
3.4.1 Apriori
3.4.2 Fp_Growth
3.4.3 算法评估
3.5 数据降维算法
3.5.1 降维技术基本理论
3.5.2 特征选择
3.5.3 主成分分析
3.5.4 SVD分解
3.5.5 降维方法选择
3.6 数据升维方法
3.6.1 分箱
3.6.2 交互式特征
3.7 推荐算法
3.7.1 基于内容推荐
3.7.2 基于用户的协同过滤
3.7.3 基于物品的协同过滤
3.7.4 SVD推荐原理
3.7.5 推荐算法评估
3.8 模型优化方法
3.8.1 机器学习抽样
3.8.2 相似性度量
3.8.3 损失函数
3.8.4 过拟合与欠拟合
3.8.5 正则化方法
3.8.6 剪枝方法
3.8.7 模型选择
3.9 本章总结
第4章 大数据技术解析
4.1 数据埋点技术
4.1.1 技术原理
4.1.2 代码埋点
4.1.3 可视化埋点
4.1.4 无埋点技术
4.1.5 埋点需求分析
4.1.6 选择部署方式
4.2 网络爬虫技术
4.2.1 聚焦爬虫工作流程
4.2.2 数据解析流程
4.2.3 爬行策略
4.2.4 网页更新策略
4.3 数据仓库技术
4.3.1 数仓名词解析
4.3.2 数据建模方法
4.3.3 数仓建设原则
4.3.4 SQL查询
4.3.5 SQL查询优化
4.4 ETL技术
4.4.1 数据质量评估
4.4.2 ETL流程
4.4.3 缺失值处理方法
4.4.4 异常值识别方法
4.5 Hadoop技术
4.5.1 Hadoop核心之HDFS
4.5.2 Hadoop核心之MapReduce
4.5.3 YARN
4.5.4 WordCount源码
4.5.5 MapReduce优化
4.6 Spark技术
4.6.1 Spark集群运行
4.6.2 Spark程序运行
4.6.3 Spark RDD
4.6.4 Spark存储
4.6.5 Spark内存管理
4.6.6 Spark资源分配
4.6.7 Spark Shuffle机制
4.6.8 Spark的算子调优
4.6.9 数据倾斜问题解析
4.7 本章总结
第5章 数据可视化
5.1 图表类型
5.2 绘图原则
5.3 ECharts快速上手
5.3.1 ECharts引入
5.3.2 准备DOM容器
5.3.3 柱状图示例
5.4 本章总结
附录
附录A 笔面试真题
封底
更新时间:2022-12-14 19:39:24