分类 大数据 下的文章

HBase读数据流程HBase读操作1)首先从zk找到meta表的region位置,然后读取meta表中的数据,meta表中存储了用户表的region信息2)根据要查询的namespace、表名和rowkey信息。找到写入数据对应的region信息3)找到这个region对应的regionServer,然后发送请求4)查找对应的region5)先从memstore查找数据,如果没有,再从BlockCache上读取HBase上Reg...

阅读全文 »

HBase 简介HBase是什么HBase 基于 Google的BigTable论文而来,是一个分布式海量列式非关系型数据库系统,可以提供超大规模数据集的实时随机读写。接下来,通过一个场景初步认识HBase列存储如下MySQL存储机制,空值字段浪费存储空间idNAMEAGESALARYJOB1小明23 学生2小红 10w律师 如果是列存储的话,可以这么玩......rowkey:1 name:小明rowkey:1 age:...

阅读全文 »

Hadoop3.x中增强了很多特性,在Hadoop3.x中,不再允许使用jdk1.7,要求jdk1.8以上版本。这是因为Hadoop 2.0是基于JDK 1.7开发的,而JDK 1.7在2015年4月已停止更新,这直接迫使Hadoop社区基于JDK 1.8重新发布一个新的Hadoop版本,而这正是Hadoop3.x。Hadoop3.x以后将会调整方案架构,将Mapreduce 基于内存+io+磁盘,共同处理数据。Hadoop 3....

阅读全文 »

源码阅读准备下载Apache Hadoop-2.9.2官方源码将源码导入idea中启动idea在提示界面选择导入点击Finish等待下载和解决依赖完成,源码导入成功!!NameNode 启动流程命令启动Hdfs集群start-dfs.sh该命令会启动Hdfs的NameNode以及DataNode,启动NameNode主要是通过org.apache.hadoop.hdfs.server.namenode.NameNode类。重点关注...

阅读全文 »

Yarn架构ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度。NodeManager(nm):单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令。ApplicationMaster(am):数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。Container...

阅读全文 »

MapReduce思想MapReduce思想在生活中处处可见。我们或多或少都曾接触过这种思想。MapReduce的思想核心是分而治之,充分利用了并行处理的优势。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。MapReduce任务过程是分为两个处理阶段:Map阶段:Map阶段的主要作用是“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。Map阶段的这些任务可以并行计算,彼此间没有依赖关系。Red...

阅读全文 »

HDFS简介HDFS(全称:Hadoop Distribute File System,Hadoop 分布式文件系统)是 Hadoop 核心组成,是分布式存储服务。分布式文件系统横跨多台计算机,在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。HDFS是分布式文件系统中的一种。HDFS的重要概念HDFS 通过统一的命名空间目录树来定位文件; 另外,它是分布式的,由很多服务器联合起来实现其功能,集群中的...

阅读全文 »

软件和操作系统版本Hadoop框架是采用Java语言编写,需要java环境(jvm)JDK版本:JDK8版本集群:知识点学习:统一使用vmware虚拟机虚拟三台linux节点,linux操作系统:Centos7项目阶段:统一使用云服务器,5台云服务器节点Hadoop搭建方式单机模式:单节点模式,非集群,生产不会使用这种方式单机伪分布式模式:单节点,多线程模拟集群的效果,生产不会使用这种方式完全分布式模式:多台节点,真正的分布式Ha...

阅读全文 »

Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块Hadoop HDFS:(Hadoop Distribute File System )一个高可靠、高吞吐量的分布式文件系统比如:100T数据存储该怎么设计?Google发表的论文翻译成中文即“分而治之”分:拆分→数据切割,100T数据拆分为10G一个数据块由一个电脑节点存储这个数据块。数据切割、制作副本、分散...

阅读全文 »