学分高考 IT技术

大数据培训_为什么Spark比MapReduce快100X

发布时间: 2022-03-18 15:24:01

大数据培训_为什么Spark比MapReduce快100X

SparkSpark比MapReduce快100X

Spark对速度的最大声称是它能够 “在内存中运行程序比Hadoop MapReduce快100倍,在磁盘上运行速度提高10倍。” Spark可以提出这种说法,因为它在工作节点的主存储器中进行处理,并防止对磁盘进行不必要的 I / O操作。

大数据培训

Spark提供链接任务
Spark提供的另一个优势是即使在应用程序编程级别也可以链接任务,而无需写入磁盘或最大限度地减少对磁盘的写入次数(说的就是DAG的好处)。
Spark减少了磁盘 IO 的操作
Spark 计算比 MapReduce 快的根本原因在于 DAG 计算模型。一般而言,DAG 相比MapReduce 在大多数情况下可以减少 shuffle 次数。Spark 的 DAGScheduler 相当于一个改进版的 MapReduce,如果计算不涉及与其他节点进行数据交换,Spark 可以在内存中一次性完成这些操作,也就是中间结果无须落盘,减少了磁盘 IO 的操作。但是,如果计算过程中涉及数据交换,Spark 也是会把 shuffle 的数据写磁盘的!有一个误区,Spark 是基于内存的计算,所以快,这不是主要原因,要对数据做计算,必然得加载到内存,Hadoop 也是如此,只不过 Spark 支持将需要反复用到的数据给 Cache 到内存中,减少数据加载耗时,所以 Spark 跑机器学习算法比较在行(需要对数据进行反复迭代)。Spark 基于磁盘的计算也是比 Hadoop 快。刚刚提到了 Spark 的 DAGScheduler 是个改进版的 MapReduce,所以 Spark天生适合做批处理的任务。Hadoop 的 MapReduce 虽然不如 spark 性能好,但是 HDFS 仍然是业界的大数据存储标准。
温馨提示:
本文【大数据培训_为什么Spark比MapReduce快100X】由作者教培参考提供。该文观点仅代表作者本人,学分高考系信息发布平台,仅提供信息存储空间服务,若存在侵权问题,请及时联系管理员或作者进行删除。
我们采用的作品包括内容和图片部分来源于网络用户投稿,我们不确定投稿用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的权利,请联系我站将及时删除。
内容侵权、违法和不良信息举报
Copyright @ 2024 学分高考 All Rights Reserved 版权所有. 湘ICP备17021685号