本文主要为华为HCIE-Big Data-Data Mining V2.0考试大纲,其它认证项目的考试大纲可参考相应的培训教材或通过华为公司网站获取。华为企业大数据挖掘专家认证 HCIE-Big Data-Data Mining V2.0项目对应的考试、考试代码、考试名称、考试时长信息如下表所示:
考试大纲
考试内容
华为企业大数据挖掘专家认证HCIE-Big Data-Data Mining V2.0考试覆盖:数据挖掘介绍、预备知识(数学基础知识、Python基础知识)、数据预处理、特征选择与降维、有监督学习、无监督学习、模型评估与优化、数据挖掘综合应用、Spark MLlib数据挖掘、华为云机器学习服务MLS、FusionInsight Miner、大数据架构和大数据治理、大数据挖掘。
知识点占比
笔试 & 实验 & 面试知识点
第一章 数据挖掘介绍
数据挖掘概述
数据挖掘流程
数据、属性和度量
数据挖掘开发工具
数据挖掘学习路径
第二章 预备知识
矩阵和线性代数
行列式
矩阵及其变换
矩阵分解
奇异值分解
特征值分解
线性变换
向量空间
概率论和数理统计
随机事件及其概率
随机变量及其分布
随机向量及其分布
随机变量的函数
随机变量的数字特征
大数定律与中心极限定理
参数估计
假设检验
方差分析和回归分析
信息熵与基尼系数
最优化
无约束最优化问题
梯度下降法
约束最优化问题
拉格朗日乘子法
Python语言基础
什么是Python
Python基础知识
Python中的数据类型
判断与循环语句
函数和面向对象
常用标准库
常用第三方库
正则表达式
文件操作
数据采集与爬虫
什么是爬虫
爬虫的作用及工作流程
爬虫常用的工具
数据提取与存储
常见的反爬机制和应对措施
爬虫程序的实现
数据可视化
什么是数据可视化
数据可视化的作用及使用场景
数据可视化的常用工具
数据可视化的实现流程
第三章 数据预处理
数据抽取、转换和加载
数据抽取、转换和加载概述
数据抽取
数据转换
数据加载
ETL和ELT介绍
数据清洗
不均衡数据处理
缺失值处理
异常值处理
特征处理
特征缩放
数值离散化
特征编码
时间数值转换
第四章 特征选择与降维
特征选择
特征选择概述
Filter
Wrapper
Embedded
其他方法和特征扩增
降维
降维导入
SVD
PCA
LDA
LLE
第五章 有监督学习
有监督学习的预备知识
机器学习
机器学习分类
基本术语与概念
线性回归
基本概念
误差
正规方程
梯度下降
正则化
逻辑回归
基本概念
目标函数
损失函数
优化方法
KNN
基本概念
KNN算法三要素
朴素贝叶斯
贝叶斯算法
朴素贝叶斯分类算法
朴素贝叶斯分类算法的优缺点
SVM
基本概念
线性分类
线性SVM
非线性分类
非线性SVM
决策树
基本概念
ID3
C4.5
CART
集成算法
基本概念
结合策略
Bagging
随机森林
Boosting
Adaboost
GBDT
XGboost
第六章 无监督学习
无监督学习
无监督学习概念与导入
聚类算法
聚类分析概念
基于原型聚类
K-Means算法
K-Mediods算法
基于层次聚类
Hierarchical Clustering算法
BIRCH算法
基于密度聚类
DBSCAN算法
关联算法
Apriori算法
FP-growth算法
第七章 模型评估与优化
模型评估与优化预备知识
基本术语及概念
最优化模型
最优化模型的概述
凸优化
损失函数
最优化模型的分类
模型评估与选择
模型评估概述
数据集拆分
回归模型评估
分类模型评估
聚类模型评估
正则化
第八章 数据挖掘综合应用
数据挖掘的流程
数据挖掘流程概述
分析需求
数据读取
数据预处理
特征工程
特征选择
模型选择
模型评估
综合应用的案例分析
第九章 Spark MLlib数据挖掘
Spark MLlib基础入门
Spark MLlib简介
Spark MLlib矩阵向量
Spark MLlib基础统计分析
Basic Statistics 简介
Summery statistic (汇总统计)
Correlations (相关系数)
Stratified sampling (分层抽样)
Hypothesis Testing (假设检验)
Random data generation (随机数生成)
Kernel density estimation (核密度估计)
Spark MLlib特征提取和转换
TF-IDF
Word2Vec
StandardScaler,MinMaxScaler,MaxAbsScaler
Normalizer
ChiSqSelector
ElementwiseProduct
Spark MLlib分类与回归
分类和回归简介
线性模型
决策树模型
集成模型
朴素贝叶斯模型
Spark MLlib聚类与降维
聚类算法回顾
KMeans算法
Spark MLlib降维算法简介
SVD算法
PCA算法
Spark MLlib关联规则与推荐算法
关联规则算法回顾
Spark MLlib中FP-Growth算法
Spark MLlib中PrefixSpan算法
协同过滤算法回顾
Spark MLlib中协同过滤算法
Spark MLlib评估矩阵
Spark MLlib模型评估
分类模型评估
回归模型评估
第十章 华为云机器学习服务MLS
华为MLS服务介绍
申请华为MLS服务
创建华为MLS工作流
典型算法的应用
机器学习平台FusionInsight Miner
第十一章 大数据架构和大数据治理
大数据架构
大数据架构概述
大数据架构在大数据中的重要性
大数据架构师所具备的能力
如何构建大数据架构平台
大数据业务层通用架构
大数据治理
大数据治理概述
大数据治理建设背景和目标
企业数据规划及治理模型
大数据治理案例
第十二章 大数据挖掘
数据挖掘背景
银行客户精准画像案例
提升信用卡安全案例
城市环境质量分析挖掘案例