学分高考 IT技术

hadoop是什么

发布时间: 2022-03-17 13:09:01

hadoop是什么?Hadoop是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框,在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。

Hadoop的优点:


1.高可靠性,Hadoop按位存储和处理数据的能力值得人们信赖。

2.高扩展性,Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

3.高效性,Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

4,高容错性,Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

5,低成本,hadoop是开源的,项目的软件成本因此会大大降低。

Hadoop的模块组成:


1.Hadoop 分布式文件系统 (HDFS)—一个在标准或低端硬件上运行的分布式文件系统。

2.Yet Another Resource Negotiator (YARN)—管理与监控集群节点和资源使用情况。

3.MapReduce—一个帮助计划对数据运行并行计算的框架。该 Map 任务会提取输入数据,转换成能采用键值对形式对其进行计算的数据集。

4.Hadoop Common—提供可在所有模块上使用的常见 Java 库。

Hadoop能干什么?


1.大数据存储:分布式存储

2.日志处理:擅长日志分析

3.ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库

4.机器学习: 比如Apache Mahout项目

5.搜索引擎:Hadoop + lucene实现

6.数据挖掘:目前比较流行的广告推荐,个性化广告推荐

Hadoop是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。

温馨提示:
本文【hadoop是什么】由作者教培参考提供。该文观点仅代表作者本人,学分高考系信息发布平台,仅提供信息存储空间服务,若存在侵权问题,请及时联系管理员或作者进行删除。
我们采用的作品包括内容和图片部分来源于网络用户投稿,我们不确定投稿用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的权利,请联系我站将及时删除。
内容侵权、违法和不良信息举报
Copyright @ 2024 学分高考 All Rights Reserved 版权所有. 湘ICP备17021685号