数据科学与大数据技术强调交叉学科的特点,以大数据分析为核心,以统计学、计算机科学、数学为三大基础支撑学科,培养适应多层次应用需求的交叉学科人才。
数学分析,高等代数,普通物理数学和信息科学导论,数据结构,数据科学导论,程序设计导论,程序设计实践,离散数学,概率统计,算法分析与设计,数据计算智能,数据库导论系统、计算机系统基础、并行体系结构和程序设计、非结构化大数据分析等。
第一阶段:介绍大数据前沿知识和Hadoop,介绍大数据引言知识、课程介绍、Linux和UNBUTU系统基础、Hadoop在独立和伪分布模式下的安装与配置。
第二阶段:Hadoop部署。Hadoop集群模式构建,对Hadoop分布式文件系统HDFS进行深入分析。使用HDFS提供的API来操作HDFS文件。MapReduce的概念和思想。
第三阶段:大数据导入和存储。MySQL数据库的基本知识,hive的基本语法。蜂巢结构和设计原则。配置单元部署和安装案例。Sqoop的安装和使用。将sqoop组件导入到配置单元中。
第四阶段:Hbase理论与实践。Hbase简介。安装和配置。Hbase数据存储。项目实践。
第五阶段:Spaer配置和使用场景。scala的基本语法。Spark的介绍和发展历史,Spark的单机版部署。斯巴克德。
第六阶段:星火大数据分析原理。Spark内核,基本定义,Spark任务调度。Sparkstreaming实时流计算。Sparkmllib机器学习。Sparksql查询。