网易首页 > 网易数码 > 正文

数据太大?你该了解Hadoop分布式文件系统

0
分享至

(原标题:数据太大?你该了解Hadoop分布式文件系统)


第1页:联网设备增加 数据量随之上升

大数据时代来了。当所有人都争吵着这件事情的时候,当所有企业都看好大数据的发展前景的时候,却都很少关注这些数据从哪儿来,我们有没有足够优秀的技术能力处理这些数据。

联网设备增加 数据量随之上升

网络的发展无疑为我们迎接大数据时代、智能计算时代铺好了路。根据研究公司的预测,全球联网设备正在增加,在部分国家,人均联网设备早已超过2台;如此大量的联网设备和不断提高的网络速度都在让社会的数据量快速增长,智慧城市、平安城市的实现也是以视频监控等视频数据为基础,成为大数据时代的重要组成部分。



机器人、AI、机器学习的研究让数据成为未来辅助我们生活的必要因素,无人车、机器人快递等形式的出现, 一方面体现了数据价值,另一方面也是在不断收集数据,反哺数据分析和应用。

数据体量太大 谁来处理?

数据产生后,意味着数据的采集工作已经完成,那么数据的输入与有效输出问题怎么破解?

自大数据时代到来之后,分布式存储、大文件的读写都成为热点话题,如何应对越来越多的大文件存储、分析与检索,成为企业需要攻克的难题。


而Hadoop的原型要从2002年开始说起。Hadoop的雏形始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎。而后根据谷歌发表的学术沦为谷歌文件系统(GFS),实现了分布式文件存储系统名为NDFS。而后又根据Google发表的一篇技术学术论文MapReduce,在Nutch搜索引擎实现了用于大规模数据集(大于1TB)的并行分析运算。最后,雅虎雇用了Doug Cutting,Doug Cutting将NDFS和MapReduce升级命名为Hadoop,HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)就此形成。

应该说Hadoop是针对大数据而存在的,HDFS能够提供高吞吐量的数据访问,适合有着超大规模数据集的应用程序。我们可以在Hadoop的设计中看到三大特点:适用于存储超大文件、适合运行在普通廉价的服务器上,同时,最搞笑的访问模式是一次写入、多次读取。

当然,HDFS也存在一些弊端,比如说不适用于有低延迟要求的应用场景。因为Hadoop是针对大数据传输的存在,是为高数据吞吐量应用而设计,这导致其必然要以高延迟作为代价。同时HDFS分布式存储不适用于小文件传输,在大量小文件传输过程中,namenode的内存就吃不消了。




第2页:Hadoop概念科普

Hadoop概念科普

在了解了Hadoop的身世和现在适合的应用场景之后,笔者要跟大家科普一下Hadoop的基础架构和主要概念。

NameNode:namenode负责管理文件目录、文件和block的对应关系以及block和datanode的对应关系。这是由唯一一台主机专门保存,当然这台主机如果出错,NameNode就失效了,需要启动备用主机运行NameNode。

DataNode:负责存储,当然大部分容错机制都是在datanode上实现的。分布在廉价的计算机上,用于存储Block块文件。

MapReduce:通俗说MapReduce是一套从海量·源数据提取分析元素最后返回结果集的编程模型,将文件分布式存储到硬盘是第一步,而从海量数据中提取分析我们需要的内容就是MapReduce做的事了。

Block:也叫作数据块,默认大小为64MB。每一个block会在多个datanode上存储多份副本,默认是3份。

Rack:机柜,一个block的三个副本通常会保存到两个或者两个以上的机柜中。

相关推荐
热点推荐
开场嘲讽米兰南看台Tifo:“老鼠”偷走意甲20冠

开场嘲讽米兰南看台Tifo:“老鼠”偷走意甲20冠

直播吧
2024-04-23 02:55:12
北影节上,娄艺潇自信亮相,自然之美胜过整容脸,传递正能量!

北影节上,娄艺潇自信亮相,自然之美胜过整容脸,传递正能量!

评论哥阿趋
2024-04-23 10:43:59
程潇登山照片

程潇登山照片

农人老寓
2024-04-23 02:06:17
华为Pura 70,果然还是被玩坏了

华为Pura 70,果然还是被玩坏了

锋潮评测
2024-04-22 18:07:17
500万网红李闽轩北电艺考作弊!成绩已被取消,举报人曝更多内幕

500万网红李闽轩北电艺考作弊!成绩已被取消,举报人曝更多内幕

洛洛女巫
2024-04-23 16:12:30
人民日报发声,撕掉了这些明星的遮羞布,没一个值得惋惜!

人民日报发声,撕掉了这些明星的遮羞布,没一个值得惋惜!

历史有些冷
2024-03-17 20:00:03
母子被同学家长殴打后续:调查结果公布了,班主任受牵连!

母子被同学家长殴打后续:调查结果公布了,班主任受牵连!

皓月说故事
2024-04-23 09:40:04
江西“巨贪”落马后被判无期:为立功减刑,检举了300多位干部

江西“巨贪”落马后被判无期:为立功减刑,检举了300多位干部

天闻地知
2024-04-23 09:35:40
男性最“耗阳”行为,烟酒未上榜,排第一的,多数人不重视!

男性最“耗阳”行为,烟酒未上榜,排第一的,多数人不重视!

闻心品阁
2024-04-23 08:24:38
胡金秋:让压抑的矛盾,彻底公开化

胡金秋:让压抑的矛盾,彻底公开化

话体坛
2024-04-22 12:38:51
波兰总统:已准备好接受北约部署核武器!佩斯科夫回应!俄外长:西方在核大国直接冲突边缘试探

波兰总统:已准备好接受北约部署核武器!佩斯科夫回应!俄外长:西方在核大国直接冲突边缘试探

每日经济新闻
2024-04-22 21:50:08
4月23日金价暴跌!今日金价暴跌!各大金店价格!

4月23日金价暴跌!今日金价暴跌!各大金店价格!

蓝色海边
2024-04-23 14:49:10
汪小菲决定放手了!对于大S不让汪小菲见孩子,狗仔葛斯齐再发声

汪小菲决定放手了!对于大S不让汪小菲见孩子,狗仔葛斯齐再发声

元气少女侃娱乐
2024-04-23 16:54:24
5-3!庞俊旭创纪录,种子选手告急,丁俊晖首秀,斯佳辉逆袭?

5-3!庞俊旭创纪录,种子选手告急,丁俊晖首秀,斯佳辉逆袭?

刘姚尧的文字城堡
2024-04-23 06:12:26
神舟十八号发射就位!3名航天员确定,指令长热议强,神十九待命

神舟十八号发射就位!3名航天员确定,指令长热议强,神十九待命

环球科学猫
2024-04-22 12:04:07
陈豪咖啡店经营6年仍租铺,不开分店不买店铺,生意稳定能养全家

陈豪咖啡店经营6年仍租铺,不开分店不买店铺,生意稳定能养全家

树娃
2024-04-23 14:10:30
凤凰传奇演唱会现场变军训?网友:太带劲儿了

凤凰传奇演唱会现场变军训?网友:太带劲儿了

红星新闻
2024-04-23 11:28:20
县级机构改革的可能方向:新组建一部一委四局

县级机构改革的可能方向:新组建一部一委四局

职抒胸意
2024-04-22 16:50:53
周鸿祎点评哪吒发布会张勇演讲:超水平发挥,但要思考雷军会怎么讲

周鸿祎点评哪吒发布会张勇演讲:超水平发挥,但要思考雷军会怎么讲

三言科技
2024-04-22 23:06:09
不同版本,同样结局!女生举报送水男生太懒,骂到送水老板停止送水

不同版本,同样结局!女生举报送水男生太懒,骂到送水老板停止送水

趣笔谈
2024-04-23 11:27:28
2024-04-23 20:14:44

头条要闻

凤凰传奇常州演唱会现高价停车位和"柱子票" 官方回应

头条要闻

凤凰传奇常州演唱会现高价停车位和"柱子票" 官方回应

体育要闻

快船独行侠G1:猛踹瘸子那条好腿

娱乐要闻

赵丽颖晒照似初恋,拍照疑与儿子分享

财经要闻

千元“特供”酒 猫腻有几何

科技要闻

快手挥泪“斩”辛巴?

汽车要闻

广汽丰田2024赛那SIENNA正式上市

态度原创

教育
旅游
时尚
手机
艺术

教育要闻

书单发布 | 小学生1-6年级&初中阶段分级阅读书目(C计划2024版)

旅游要闻

重庆荣获2023年全国游客满意度十佳城市

一眼心动!看来“薄荷曼波”要引领新的时尚潮流了!

手机要闻

微软Surface Pro 10全球首发!骁龙X Plus现身跑分网站

艺术要闻

蔚为大观,书香盛宴再启航!第三届嘉德国际艺术图书展正在呈现

无障碍浏览 进入关怀版
×